「大數據」從開始竄紅到現在也過了好幾年了,直到最近,不少書籍開始檢討大數據可能的問題,許多人一頭熱的栽進大數據,卻不了解大數據可能的誤用和迷思,或以為自己進行的是大數據分析,本書作者賽斯便是其中之一。賽斯的研究方法挺有趣也非常前衛 ─「Google 搜尋趨勢」。藉由檢視人們到底在 Google 上搜尋了那些關鍵字,來了解人類的行為和態度。這種方式的最大好處便是,除了資料量非常龐大以外,更可以知道人們各種的隱私態度,數以億計的人們在網路上搜尋色情內容、種族歧視、犯罪手法、或各種政治不正確的資訊,畢竟,沒有人會對搜尋引擎說謊。作者很驚訝地發現,人們對 Google 透露了很多不得了的事情,藉由分析這些巨量資料,可以得出許多驚人且違反常識的結論。例如,人們其實有很普遍的種族歧視 (即使表面上不承認)、男性似乎普遍具有戀母情結、同志比例比普遍認為的還要高等等。值得肯定的是,這種新型態的資訊來源的確有趣,揭露了傳統研究方法得不到的資料,但作者一頭熱,完全忽略了這種資料有好幾個非常巨大的缺陷,使得作者下的許多結論「可性度極低」。以下詳細說明為何我會提出這種強烈的反對論點。
先澄清一點,不是作者的所有研究都具備這五點偏誤,Google 關鍵字搜尋的研究大多包含了二、三、四,其中樣本偏誤可以說是一定有,其他的非關鍵字研究有些是還算是中肯的,有些也犯了一、五。有趣的是,這些缺陷作者或多或少知道,但作者的心態就像是「我知道這些限制影響了我們結論,但我依舊認為.....」,勉強承認資料是有問題的,然後又當作這些問題不存在。事實上,若要完全承認這些偏誤,作者最引以自豪的 Google 搜尋趨勢研究幾乎都不可信,賽斯不正面應對這些問題,反而採逃避的態度。
其實是相當可惜,作者本意良好,不管是大數據或 Google 搜尋趨勢這類新型態的資料,確實大有可為,但作者矯枉過正,熱切擁抱大數據,然後貶抑其他研究方法,看不起小型調查研究,認為傳統的實驗室研究將會過氣,以後都會被大數據取代。作者眼界狹小之餘,還有點狂妄的對其他學科「指點江山」,認為你們這些心理學、社會學、政治學者別再搞那種又貴又小家子氣的研究,大數據才是王道。大數據的一大問題就是混淆變項太多,在釐清變項間關係時要非常小心,作者對此完全沒有察覺,讓我相當懷疑科學方法論是不是根本沒學好,竟然還能念到經濟學博士,一知半解對著其他學科批評,相當令我作噁。