數據、謊言與真相:Google資料分析師用大數據揭露人們的真面目 (電子書)

中文電子書
商業理財
290
4 /5
6位讀者評分
5
50%
4
33%
3
0%
2
0%
1
17%

精選書評

全部書評 | 共6則書評

評鑑星等(可複選)
評鑑日期
user-img
4.0
|
2022/10/24
劇透警告
《Everybody Lies》

書中帶岀的道理十分好
正是你不了解事情的真相就千萬別用經驗主觀輕易去給一件事評價
就算你要評價也要用數據去支持這樣才能避免偏見的發生
因為很多事的事實都是和你直覺所想的相反
千萬別被固有觀念套牢自己
展開
user-img
4.5
|
2021/09/03
劇透警告
這本書有趣的地方在於,他在做社會科學之論證時,用的是Google跟色情網站之關鍵字當作數據,總是可以做出有趣的推論,不過當然礙於篇幅,論述是否"鐵",當然還會有很多切入點,但有趣的還是放在他的統計資料的"來源",他的論證正確與否,我倒覺得還好。
展開
user-img
4.0
|
2020/01/09
想回應讀者power8888之觀點,從其對於作者之反對書評中可以明白他對於實驗的統計與設計上具有一定程度之專業性,觀看此書的讀者完全可以參考他的意見作為觀看此書之補充,也是警語。大部份對於數據研究不熟悉的人對於數據研究的結論都過於肯定或是確信,但是其實許多實驗本身下的實驗結果都是十分保留的,這是因為目前統計部分數據大部分僅能確認相關,無法驗證因果。但是大家通常會「超譯」很多研究數據,導致大眾對於數據之錯誤概念。

但是在p先生/小姐的留言下,我想試著為作者平反一點在某些部分過於嚴厲或是可能不夠正確之批評。

第四點中作者明確指出他所使用的數據是在美國用戶中的數據,所以對於其他國家的人因為好奇而搜尋等推論無法成立。但是我很喜歡p先生/小姐對於動機偏誤提供的等等見解,有助我們更小心的檢視這些數據


在第五點的部分、作者所下的結論應該沒有包含移民之關聯試用於所有國家。這邊也想提醒觀看此書之各位,本書中所有實驗數據是針對美國所做的研究,所以這些數據的適用性僅處於美國,因為各國的國情、風土民情、政治環境等不同的變因,這種結果請勿過度超譯為適用於所有國家。

我也不認為作者看不起小型調查研究,認為傳統的實驗室研究將會過氣。他僅是作為研究大數據的人,提供另一種未來研究的可能性。事實上,在本書第三篇他也有提到一些大數據研究之誤區作為提醒。這讓我對於本書之評價提高許多,他並非一昧追求大數據之狂熱者,仍提供關於大數據的正反論述給讀者參考,這使的這本書更具可讀性。



展開
user-img
1.0
|
2019/08/19
大數據的反面教材。

「大數據」從開始竄紅到現在也過了好幾年了,直到最近,不少書籍開始檢討大數據可能的問題,許多人一頭熱的栽進大數據,卻不了解大數據可能的誤用和迷思,或以為自己進行的是大數據分析,本書作者賽斯便是其中之一。賽斯的研究方法挺有趣也非常前衛 ─「Google 搜尋趨勢」。藉由檢視人們到底在 Google 上搜尋了那些關鍵字,來了解人類的行為和態度。這種方式的最大好處便是,除了資料量非常龐大以外,更可以知道人們各種的隱私態度,數以億計的人們在網路上搜尋色情內容、種族歧視、犯罪手法、或各種政治不正確的資訊,畢竟,沒有人會對搜尋引擎說謊。作者很驚訝地發現,人們對 Google 透露了很多不得了的事情,藉由分析這些巨量資料,可以得出許多驚人且違反常識的結論。例如,人們其實有很普遍的種族歧視 (即使表面上不承認)、男性似乎普遍具有戀母情結、同志比例比普遍認為的還要高等等。值得肯定的是,這種新型態的資訊來源的確有趣,揭露了傳統研究方法得不到的資料,但作者一頭熱,完全忽略了這種資料有好幾個非常巨大的缺陷,使得作者下的許多結論「可性度極低」。以下詳細說明為何我會提出這種強烈的反對論點。

PS. 下述我會常常引用本書中的色情搜尋研究作舉例,不喜勿讀

第一:「過度推論」
作者犯了大數據狂熱者常犯的典型錯誤,對數據進行過多的解讀。例如,作者發現男性在搜尋色情影片時,最常搜尋的職業類別是「褓姆」,其他如「老師」、「醫生」、「秘書」等等也都名列前茅,據此推論,佛洛伊德所指稱的戀母情結,很可能確有其事。這種說法連推論的稱不上,只能算是臆測,講難聽點就是瞎掰,喜歡看熟女內容就暗示喜歡自己的老母嗎?這種論述真的是挺可笑的,不知道各位熟女控、御姊控看到這種論述作何感想。此外,作者發現,年齡對於支持哪種隊伍有顯著影響,愛上哪個球隊基本上是 8 歲左右決定的,但仔細看作者給的圖表,發現其效果量其實低的可憐,只有提升10%,8 歲左右愛上的球隊,比起其他年齡區間多出10%的延續效果,卻被作者解釋成具有決定一生的影響力。

第二:「樣本偏誤」
我想應該有不少統計學者不同意 Google 搜尋趨勢的資料可以算做大數據,大數據不是資料多就算,最理想大數據就是「母群體」,直接對母群體分析,便可以略過抽樣與統計推論。關鍵字搜尋結果的資料,不僅稱不上是母群體,在代表性上還是極度偏誤的,那些「沒有進行關鍵字搜索」的人,被排除在樣本之外。以上述色情研究例子來說明,沒有進行職業關鍵字 (如褓姆) 來搜尋的人,包括那些只用番號來找的人、只偏好特定女優的人、只從特定來源獲取內容的人,以及任何不使用搜尋引擎來找的人,都會被排除在外,這種「系統性」的排除多種來源,使得可信度大打折扣。雪上加霜的是,有不少人常會重複搜尋同一關鍵字,同一個人卻大幅增加搜尋「人次」,使特定類型的資料不當膨脹。

第三:「特殊性偏誤」
人們會去搜尋什麼,跟不會去搜尋什麼,兩者具有巨大差異。你大概不會常常搜尋「常識」,因為正常人應該都知曉絕大部分的常識,我們會去搜尋我們不知道的、比較稀有的、違反直覺的、甚至是民俗禁忌的事項,尤其是大多數人以為沒人知道他們估狗了什麼,這使得具有特殊性的關鍵字本來就比較常被人們搜尋。「褓姆」類型的色情內容就是那種比較特殊的類別 ,其他如不倫戀、師生戀、亂倫等等挑戰禁忌的內容,也更加引起青少年的好奇心,它們常被搜尋是因為本身的特殊性,不一定代表人們真的比較偏好這些內容,大眾偏好的常見的內容根本不需要特地去找,首頁就一大堆。筆者特地去檢視 Pxxxhub 上褓姆類型的內容,點閱率就沒有比其他職業還要高。

第四:「動機偏誤」
用同樣一個關鍵字搜索的人,代表他們的想法一樣嗎?很明顯不一定吧。作者蒐集許多種族議題的搜尋結果,發現歐巴馬當當年選後,人們搜尋「黑鬼 (nigger)」的的次數大幅增加好幾百萬,據此推論美國人仍普遍具有種族歧視。先別說過度推論或樣本代表性的問題,在搜尋引擎輸入黑鬼就一定代表了厭惡黑人嗎?或許不少人是,但也可能有黑人也會自己去搜這個詞,只是想了解為什麼有人會有這詞攻擊他們,其他國家的人可能也因為首次黑人當種統,好奇去搜索各種黑人詞彙,包括黑鬼在內,但不代表他們真的厭惡黑人。

第五:「因果推論偏誤」
這也是大數據狂熱者常犯的錯誤,大家都知道相關不等於因果,但一頭熱栽進去時常常忘了這點,作者指出,美國的數據顯示出,移民較多的州表現也比較好,據此推論移民有益。然而,這是因為全世界最頂尖的人才都往美國跑才有這種結果,賽斯大概不清楚敘利亞難民湧入歐洲各國,對他們造成極大的財政負擔。

先澄清一點,不是作者的所有研究都具備這五點偏誤,Google 關鍵字搜尋的研究大多包含了二、三、四,其中樣本偏誤可以說是一定有,其他的非關鍵字研究有些是還算是中肯的,有些也犯了一、五。有趣的是,這些缺陷作者或多或少知道,但作者的心態就像是「我知道這些限制影響了我們結論,但我依舊認為.....」,勉強承認資料是有問題的,然後又當作這些問題不存在。事實上,若要完全承認這些偏誤,作者最引以自豪的 Google 搜尋趨勢研究幾乎都不可信,賽斯不正面應對這些問題,反而採逃避的態度。

作者是哲學系出身,在讀了李維特的「蘋果橘子經濟學」之後大受啟發,決定攻讀經濟學博士,以「數據科學家」為志業,這點讓人讚賞,但遺憾的是,他也一併繼承李維特研究的缺點,號稱蘋果橘子經濟學進階版,連缺點也一併放大。蘋果橘子經濟學作為通俗讀物儘管暢銷,但其實很受學界批評,李維特是經濟學家,但喜愛跨足研究心理、社會、犯罪、政治學領域,然而他對這些領域其實不太熟悉,儘管「班門弄斧」一番引述大量研究,但許多結論卻是非常有問題。本書作者賽斯也出現同樣通病,甚至觀點非常狹隘,竟然覺得只有經濟學家在做「自然實驗」,事實上,心理學、犯罪學、社會學、政治學、人類學、公共衛生學、流行病學、醫學等等多到你數不清的領域都會採用自然實驗的設計,可見作者眼界之小。作者還聲稱「迴歸不連續設計」是經濟學家發明的,實際上這是教育心理學家開創的東西,賽斯連自己引述的文獻都沒看清楚。

其實是相當可惜,作者本意良好,不管是大數據或 Google 搜尋趨勢這類新型態的資料,確實大有可為,但作者矯枉過正,熱切擁抱大數據,然後貶抑其他研究方法,看不起小型調查研究,認為傳統的實驗室研究將會過氣,以後都會被大數據取代。作者眼界狹小之餘,還有點狂妄的對其他學科「指點江山」,認為你們這些心理學、社會學、政治學者別再搞那種又貴又小家子氣的研究,大數據才是王道。大數據的一大問題就是混淆變項太多,在釐清變項間關係時要非常小心,作者對此完全沒有察覺,讓我相當懷疑科學方法論是不是根本沒學好,竟然還能念到經濟學博士,一知半解對著其他學科批評,相當令我作噁。
展開
user-img
5.0
|
2019/03/14
作者敘事功力非常強,用語幽默風趣,尤其是作者在書中所研究的案例,和現實生活相當貼近(意識形態、同性伴侶和種族歧視等等的議題)。如果像我一樣,對於「大數據」既有興趣,卻又感到困惑的人,不妨看看這本書,會有全新的思考角度與收穫。
展開
user-img
5.0
|
2018/07/26
這本書提供非常不同面向的思考。
另外,註解中有許多作者幽默風趣的話,千萬不要跳過XDD
展開