世界閱讀日
數據、謊言與真相:Google資料分析師用大數據揭露人們的真面目

數據、謊言與真相:Google資料分析師用大數據揭露人們的真面目

Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are

  • 定價:420
  • 優惠價:9378
  • 本商品單次購買10本85折357
  • 運送方式:
  • 臺灣與離島
  • 海外
  • 可配送點:台灣、蘭嶼、綠島、澎湖、金門、馬祖
  • 可取貨點:台灣、蘭嶼、綠島、澎湖、金門、馬祖
  • 台北、新北、基隆宅配快速到貨(除外地區)
載入中...
  • 分享
 

內容簡介

▍誠品書店當月選書
▍城邦讀書花園當月選書
▍亞馬遜非文學類當月選書
▍亞馬遜 2017 年年度最佳商管書
▍《財星》雜誌當月最佳商業書籍
▍《紐約時報》暢銷書
▍《經濟學人》《紐約郵報》《圖書館期刊》等多家媒體推薦

★大數據下的真實人性!
★結合《精準預測》的大量資訊分析、《異數》的敘事風格,以及《蘋果橘子經濟學》的機智風趣。
★ Google 前資料分析師描寫大數據最令人信服、深具挑釁,甚至令人捧腹大笑的一本書!

人們謊報在回家途中喝了多少酒,
謊稱自己多常上健身房和新鞋子買多少錢,
就連沒看過的書也說自己有看過。
沒生病卻打電話請病假,說再聯絡卻不再聯絡。
人們說事情跟你無關,但其實就跟你有關。
明明不愛你,卻騙你說愛你。
心情不好時卻說自己很開心,
明明喜歡男人,卻說自己喜歡女人。
人們對朋友說謊、對老闆說謊、對子女說謊、對父母說謊、
對醫生說謊、對老公說謊、對老婆說謊,也對自己說謊。
作者證明大數據提供一種前所未有的方式,
讓我們窺探人們的內心世界,
因為人們透過鍵盤才會在無意中私密地坦承千奇百怪的事情。

歐巴馬當選表示美國的種族歧視緩解了?錯!
黑人球員進入職業運動殿堂是貧困孩子奮發向上的勵志故事?大部分不是!
挑選賽馬最重要的參考依據是血統?不!
父母對待兒子和女兒的態度不一樣嗎?不一樣!
佛洛伊德說夢境中的事物都有性意涵,這是對的嗎?很可能不對!

回答問卷、民意調查、接受採訪、臉書貼文
──我們都有可能說謊;
但是你的搜尋行為可不會說謊!
大數據,呈現我們每個人、每秒鐘無意識的反射!

  無論是嚴肅或日常的議題,如今我們已有途徑能解答不久之前因種種原因(例如缺乏數據,或單純不敢提問)還未能解答的問題。

  四年前,作者還是哈佛經濟系博士班學生,正努力找尋論文題目。有天早上,他發現 Google 基本上已為所有研究者備好所需的資料,也就是說,Google 是全球人類興趣資料庫的集中地,這些資料簡直就是任何對人類行為感興趣的人夢寐以求的:從我們每個人每天的網路搜尋中找到行為模式。然而,這些資料早已存在好些時日,卻從未有任何報章雜誌對其有過深刻的報導與研究。

  作者深入研究 Google、推特(Twitter)、臉書(Facebook)、警察局紀錄、電影票收據、維基百科、色情網站、棒球球員個人成績表,和你想像不到的數位與傳統資料來源之後,發現這些資料來源有個共通的特點:他們提供的是大數據,亦即我們每個人每秒鐘無意識的反射,而非根據民意調查而來的一小部分民眾的意見樣本。

  網路上的新數據,也就是數十億人在 Google、社群媒體、約會網站,甚至色情網站留下的數位足跡,最後會揭穿事實真相。這些不僅是新類型的數據,更有些是「誠實」的數據,在匿名機制下,彷彿四下無人時,人們才會吐露自己最真實的想法,以及真正想問的尷尬問題。這類數據就像數位版的「誠實豆沙包」,讓人們表達出自己的無性婚姻、個人精神健康問題、不安全感、受虐,以及對黑人或穆斯林的憎惡。透過分析這座數字金礦,我們現在可以了解人們真正在想什麼,真正想要什麼,以及真正做了什麼。

  作者在本書中展示,要從數據中獲得寶貴資訊,最關鍵的一點是:你必須問對問題。而大數據有四大關鍵力量可以協助:

  ⒈大數據能讓你將數據切割分解,讓你見微知著及獲得具體的見解。
  ⒉新的資料來源通常包括新類型的變數,比現存變數更能幫助我們了解複雜關係,並充分利用。
  ⒊新的數位資訊能提供我們生活的真實樣貌,而非我們希望自己呈現給外人的形象。
  ⒋大數據易於與實驗結合,使我們能測試因果關係,而非僅是相關性。

  進入網路新時代的這幾十年以來,我們在健康、道德、勞動市場、商業、恐怖主義、性別,以及種族等議題上有長足的認識。我們的數位足跡已把整個世界變成一個實驗室,本書將呈現出這場數位革命如何為我們每個人打開找尋隱藏真理的大門,一窺人們的內心世界,提出大數據時代真正的洞見。

  本書以極具啟發性的觀點解讀大數據,並以各式各樣有趣的案例忠實呈現網路世界與當代社會的現況,讓我們得以重新認識自己與這個世界。

專業人士推薦

▍苗博雅(《阿苗帶風向》主持人)專文推薦
▍張鐵志(文化與社會趨勢觀察家)、馮勃翰(台大經濟系副教授)誠實推薦

專業人士推薦語

▍《阿苗帶風向》主持人苗博雅:
「透過作者風趣的文筆,我們知道大數據搭配電腦運算,有嶄新的力量……作者雖然醉心於以新穎方式分析海量數據,但他仍然在書中誠實地提醒讀者大數據的各種『能與不能』……本書的優點:簡明、幽默、易懂。只要讀者能夠看到最後一頁,勢必有所收穫。」

▍哈佛大學榮譽退休校長暨諾頓講座教授勞倫斯‧桑默斯(Lawrence Summers):
「《蘋果橘子經濟學》(Freakonomics)和《魔球》(Moneyball)都要靠邊站了。這本精彩傑作是說明大數據結合聰明才智如何撼動世界的最佳示範。閱讀這本好書,會讓你以嶄新的方式看待生活。」

▍《人性中的良善天使》作者史蒂芬‧平克(Steven Pinker):
「研究思維的一種嶄新方式,史蒂芬斯—大衛德維茲的發現一次又一次地顛覆我對自己國家和同胞先入為主的看法……這本書真是太令人著迷了。」

▍《蘋果橘子經濟學》合著者史蒂芬‧李維特(Steven Levitt):
「針對大數據揭露人們日常生活真相做出絕頂聰明又機鋒處處的探索。史蒂芬斯—大衛德維茲是我見過最會善用數據說故事的高手。」

▍《我們是誰?大數據下的人類行為觀察》作者克里斯汀‧魯德(Christian Rudder):
「對於我們生活的數據進行振奮人心又引人入勝的審視……大數據會徹底推翻你對人們的既定印象,真相會讓你畏縮、暗自竊笑並搖頭嘆息。」

▍《注意力商人》(The Attention Merchants)作者吳修銘(Tim Wu):
「《數據、謊言與真相》仰賴大數據迅速拆穿我們自以為文明的假象。一本讓人既著迷又震驚,時而駭人聽聞的傑作。最棒的是,讓真相一覽無遺。」

▍史丹佛大學經濟學教授拉吉‧切提(Raj Chetty):
「《蘋果橘子經濟學》的增強版,這本書顯示大數據如何能針對重要有趣的問題,提供我們驚人的新答案。史蒂芬斯—大衛德維茲以機智俐落的方式提供數據分析,為構成社會科學的大數據提供精闢出色的介紹。 」

▍拉扎德投資銀行(Lazard)董事總經理暨前國會預算辦公室主任彼得‧奧薩格(Peter Orszag):
「傑作!!!作者妙筆生花敘述透過大數據進行的一場寓教於樂之旅。這場旅程剛好為人類行為本身提出一個重要的新觀點。如果你想了解我們居住的世界正在發生什麼事,甚至是了解你的友人究竟怎麼回事,你就該從頭到尾看完這本書。」

 

作者介紹

作者簡介

賽斯‧史蒂芬斯—大衛德維茲Seth Stephens-Davidowitz
  《紐約時報》撰稿人暨華頓商學院客座講師,曾為Google數據科學家。史丹佛大學哲學系畢,哈佛大學優等生榮譽學會(Phi Beta Kappa)成員暨經濟學博士,目前定居紐約市。史蒂芬斯—大衛德維茲的研究使用新的大數據來源,揭露人們潛藏的行為和態度,並已刊登在《公共經濟學期刊》(Journal of Public Economics)等聲望卓著的出版物。

譯者簡介

陳琇玲Joyce Chen
  美國密蘇里大學工管碩士,曾任大學講師、軟體中文化及影片翻譯譯者、Alcatel Telecom主任稽核師。已出版譯作百餘冊並多次獲得金書獎殊榮,現以翻譯為樂並習畫自娛。重要譯作包括:《搜尋未來》《2017-2019投資大進擊》《物聯網革命》《引爆會員經濟》《精準預測時代》《人工智慧的未來》等。

相關著作:《2017-2019投資大進擊:全球趨勢專家首次揭露一輩子一次的投資良機》《OQ:哈佛商學院最有成效的經營課》《不必多花錢,也有超強競爭力!》《別再拚命討好顧客——專心替顧客省麻煩,回購比例就能輕鬆提高94%!》《川普、清崎點石成金》《用十張地圖看懂全球政經局勢》

 

目錄

推薦序 現象、真相與解方──提到「大數據」,你想到什麼?/苗博雅
推薦序 大數據成了窺探你內心的新窗口/史蒂芬‧平克

前 言 川普勝選讓你跌破眼鏡?那是你沒看懂數據
    ──歐巴馬勝選代表種族歧視已經好轉?看看「黑鬼」的搜尋次數好嗎?

第一篇 管他大數據還是小數據

第一章 別讓直覺扯你後腿──是什麼造就了 NBA 球星?

第二篇 大數據的驚人力量

第二章 佛洛伊德說的正確嗎?──拼錯字背後隱藏的慾望
第三章 怎樣的數據算是大數據?──每個年代都可以算出「平均長相」
第四章 躲在線上的真相──你永遠問不出來的同志比例、仇恨言論、性隱私和顧客的腦袋
第五章 我們周遭發生了什麼事?──逃稅最嚴重的城市
第六章 整個世界,都是我的實驗室──怎樣的頭條標題吸引人?

第三篇 小心面對大數據!

第七章 大數據,大垃圾?──大數據看起來很萬能,但別拿它來算明牌!
第八章 愈多數據,愈多問題?──我可能因大數據而無法借款?

結 論 大數據告訴我,很少人看到最後一頁
 

推薦序》現象、真相與解方──提到「大數據」,你想到什麼?
苗博雅/《阿苗帶風向》主持人

  想到城市裡數萬支監視器?想到電影《關鍵報告》(Minority Report)?還是想到一個令人興奮的研究領域?一大堆不知從何分析起的資料?想到臉書(Facebook)和 Google 大神總是會在你逛網拍後推送相關廣告給你?或者是政府定期公布的失業率、薪資、加班時數統計?犯罪熱區、犯罪率?

  你有聽過有關美國職棒大聯盟(MLB)奧克蘭運動家隊《魔球》(Moneyball)的故事嗎?運動家隊制服組頭子比利‧比恩(Billy Beane)利用「棒球統計學」成功締造許多「砂礫中撿到珍珠」的故事,讓小資本的運動家隊也創下傲人戰績。找到好球員並不稀奇,傳統的球探也能做到。《魔球》的威力在於能成功辨識被傳統球探低估的優質球員,在球員身價不高時用低價簽下,等到球員打出佳績還可高價脫手。怎麼做到的呢?就在於更多數據、更多統計。

  《魔球》的祕訣,就是發展新的棒球統計數據,找出傳統數據並不特別傲人,但進階數據可找出與優秀球員比肩的新秀。使用比傳統數據更能準確評估球員能力的進階數據,可提升預測球員未來表現的準確度;比別人更早發展出新的進階數據,等於掌握了別人沒有的水晶球,可以提早進場佈局。

  掌握且懂得運用更多數據的人,有更大的機會成為贏家,這給了所有競爭者一個追求數據棒球的好理由。在比利‧比恩創下佳績後,大聯盟的三十支球隊制服組都開始學著使用進階數據。原本被低估的球員不再被低估,要追求超額利潤,就必須再找出無人知曉的有用數據才行。更多的細節、更複雜的計算方式、更多的變項、更多的維度,就是要比別人搶先一步看到未來。

  不只棒球如此,金融市場更是數據的殺戮戰場。如何評估一個金融商品是金雞母還是賠錢貨?古早時代可能是道聽塗說、問朋友、去工廠看存貨。現代可能是看財報,分析各種數據。如何評估景氣趨勢呢?古人已經學會看港口、市場的繁忙程度,現代人多了失業率、GDP 等各種指標。經濟學迄今發展出的各式數據統計早已超過一百年前科學家的想像。

  所有的成功故事,或多或少都跟「資訊比人多、動作比人快」有關。人類很早就發現「歸納過去可以預測未來」的道理。從古文明觀星象到美國職棒大聯盟的《魔球》,人類發展與使用「數據」的歷史非常久遠。「統計學」從來不是新鮮事。「大數據」到底有什麼特別之處嗎?

什麼是「大數據」?

  作者在書中並未對「大數據」下一個清楚的定義。一來,在資訊爆炸時代,人類一天可以產生二百五十萬兆位元組的資訊量,到底要多「大」才夠「大」?二來,擁有海量數據並不會自動產生精闢結論。「垃圾進,垃圾出」(Garbage in, garbage out)是所有曾學過統計的人致力避免的錯誤。我們不應高估數據「量」的重要性(畢竟跟人類一天產生的數據量相比,再多數據也都是相對少量)。即使是相對較少量的數據但使用新穎方式處理,也可能讓我們看見以前不知道的真相。

  總之,作者跳過了「定義大數據」的階段。選擇了另一種論述方式:讓大數據的力量說明它自身的特質。

  作者在書中試圖論證四種「大數據的力量」,包括:

  ⒈提供新類型的數據:這主要是仰賴「電腦運算」的力量。包括書籍中的字詞、畢業紀念冊的照片,都可以藉由電腦運算處理成千上萬、上千萬筆資訊,並做出有意義的統計結果。若是使用人力,恐怕難以處理。
  ⒉提供誠實的數據:這是仰賴「以為沒人知道」的力量。作者運用了 Google 搜尋統計,發現人們不願說出口的祕密。例如深藏內心的種族歧視、仇恨思想,以及推測未出櫃的同志人口、未報案的虐童案件、墮胎手術等政府統計資訊沒有處理到的角落。還有,色情網站 PronHub 讓作者得以一窺人們不會公開談論的性事。這都來自於大數據曝光了人們原本以為沒人在看的角落。
  ⒊可以針對更特定的人口進行分析:大數據讓獲取每個樣本的單位成本大幅降低,「海量樣本、超低成本」成為現實。只需要幾行程式碼就能取得數十萬使用者的資訊,我們不僅可以看到大趨勢,更可以針對特定人口(例如出生在特定年分的男性是否喜歡某支球隊)做出有意義的分析。
  ⒋更容易進行「因果關係」的實驗:過去的統計學找出了很多「相關性」,但要找出「因果關係」可就不是這麼容易了。拜網路之賜,幾行程式碼就可以讓成千上萬不知情的使用者協助企業進行A/B測試(A/B testing)。大數據不只窺伺人們的祕密,更讓人們不知不覺間幫助企業挖掘連自己都未必知曉的偏好。

  透過作者風趣的文筆,我們知道大數據搭配電腦運算,有嶄新的力量。大數據能完成一百年前做不出來的實驗,能打臉佛洛伊德的精神分析。百年前的天才們以少量樣本輔佐直覺得出的結論,如今能透過大數據找到證據或反證。原本「以推論對抗推論」的爭辯,現在可以變成「證據對抗證據」。如同電腦運算速度大幅提升帶來學術突破性進展,現今的大數據應用是一種更強大的研究工具。

所以呢?大數據就一定好棒棒嗎?

  就我的理解,本書描述的大數據意味著「用更便宜的價格,取得更大量、更誠實的樣本」。如果我們可以用更少的錢,做出更精確的統計,代表我們有可能更成功地預測未來,也有可能挖出原本不為人知的資訊。也難怪擁有海量資源的政府、企業爭先恐後投入大數據研究。

  但大數據再厲害,也無法改變統計學和邏輯學的基本原理。統計學與邏輯告訴我們,觀察到「現象」,未必等於掌握「真相」,更不等於理解「原因」。研究人類行為和社會現象,質性的觀察、歸納與演繹仍然不可或缺。

  我們可以用大數據找出「賽馬左心室大小可以成為預測賽馬明星的有效指標」,但左心室何以影響馬匹的運動表現?還是要由獸醫學解答。大數據告訴我們美國極右派網站「風暴前線」(Stormfront)的使用者造訪《紐約時報》(New York Times)網站的可能性是他們造訪「雅虎新聞」(Yahoo News)的兩倍,是「勘查敵情」還是其他原因?大數據顯示在景氣蕭條時期虐童相關的 Google 搜尋量增加,但官方接獲的通報數卻未顯著上升,這之間的落差代表什麼?臉書可以撈出許多大數據,但臉書的貼文真的呈現人們的真實生活嗎?這些問題,都需要進一步的控制變因以及質性研究分析才能解答。

  知道更多「現象」並不會自動帶來問題的「解方」。如果只沉迷於數據相關性,而忽略了因果關係的嚴謹判斷與質性研究,輕則鬧出「短裙流行會導致冰淇淋暢銷」的笑話,重則可能犯下「PornHub 網站的女性使用者搜尋『強暴』或『強迫』性交的數量比男性多,代表女性其實喜歡這些行為」之類低級又粗劣的錯誤。這是許多熱衷讚頌大數據威能的人所忽略的重點。

  而本書的優點之一,就是本書作者雖然醉心於以新穎方式分析海量數據,但他仍然在書中誠實地提醒讀者大數據的各種「能與不能」。

  依照作者的觀點,大數據未必能大殺四方。它最有威力的領域,是在「傳統方法效率極差」的領域,大數據較有可能帶來革命性的創新。然而在已經發展成熟統計分析方法的領域,例如金融業,大數據未必能有特別傑出的表現。作者也坦言,大數據仍然需要「人類判斷與小型調查」的輔助才能發揮最好的效果。同時也在本書的後段章節提醒讀者必須「小心面對大數據」,注意過度授權政府及企業將帶來危險。

  大數據的驚人力量,必然有後座力。例如,掌握大數據的人可以輕易知道更多資訊,但無法取得這些數據的人呢?大數據是一項研究人類行為的神兵利器,但同時也製造了一個極大的資訊落差。利用這個資訊落差所衍生的牟利行為,我們有能力加以監督嗎?當人們日常行為的數據近乎免費地集中在少數的企業或政府手中,為企業或政府創造了超額利潤,弱勢的平凡人能分享受益嗎?大數據的力量之一來自於「誠實」,但人們並非自願誠實,而是「以為沒人知道」。大數據窺探了人們自以為獨處的時刻,那我們該如何更合理地維護人們想要擁有的隱私呢?

  以上問題並沒有簡單的解答。但我認為這些問題值得每一位讀者放在心上。從作者進行的研究項目,包括美國潛藏的種族主義、仇恨言論、出身與階級流動、未出櫃同志人口、虐童案件、政府態度對墮胎的影響等,也可看出他手握大數據的同時仍然保有對社會的關懷。但本書並非學術書,書中提到非常多大數據統計的案例,但絕大多數都沒有標明統計的細節(例如時間區間、樣本數、抽樣母體等)。且在談論與色情、性癖好有關的章節,雖然作者在註腳清楚表明自己其實並不知道 Google 搜尋者的性別,但為了行文方便還是直接採取了假定所有人都是異性戀的方式。因此本書比較像是報紙專欄的集結,而非一本論文。不過這也正是本書的優點:簡明、幽默、易懂。只要讀者能夠看到最後一頁,勢必有所收穫。

推薦序》大數據成了窺探你內心的新窗口
史蒂芬.平克(Steven Pinker)/美國實驗心理學家、認知科學家暨科普作家

  自從哲學家開始思索「腦部檢查鏡」這種能在螢幕上顯示個人想法的神話般裝置後,社會科學家就一直在找尋工具揭露人性的運作。身為實驗心理學家,我在事業生涯中看到不同工具的興衰演變,這些工具我全都試用過,包括:評定量表、反應時間、瞳孔擴張、功能性神經影像學,甚至是將電極植入癲癇患者腦部進行語言實驗,以腦波轉譯人類語言。

  然而,這些方法都無法提供一個暢通無阻的觀點,將人們的內心世界一覽無遺,其間的問題就在於一個殘酷的取捨。人的思想是複雜的主題,不像知名導演伍迪.艾倫(Woody Allen)用速讀方式看完《戰爭與和平》(War and Peace)後,只知道「那是一本關於俄羅斯的小說」。我們知道人類的內心世界並非那樣簡單,但是這些主題如此糾纏又牽涉甚廣,根本讓科學家難以分析。當然,當人們訴說自己的心聲時,我們會理解人們意識流的豐富性,但是獨白並非測試假設的理想數據。另一方面,如果我們專注於容易量化的方法,比如說:人們對字詞的反應時間或對圖片的皮膚反應,雖然我們可以製作出統計數據,卻將複雜的認知結構單純化為單一數字。即使最複雜的神經影像學方法論可以告訴我們,一個想法在三維空間中如何展現,卻無法告訴我們想法是由什麼構成的。

  在可追查性和豐富性之間做取捨已經讓狀況有夠複雜了,研究人性的科學家們卻還要被小數法則(Law of Small Numbers)困擾。這項法則是阿莫斯.特維斯基(Amos Tversky)和丹尼爾.卡納曼(Daniel Kahneman)為這種謬誤所取的名字,科學家們誤以為人口特質會反映在任何樣本中,無論樣本多小。但事實上,就連計算能力最強的科學家也無法憑直覺斷定,一項研究真正需要調查多少對象,才能不考慮樣本中隨機出現的異常值,而能將所有美國人概括陳述。至於我們不了解的智人(Homo sapiens),那就更不用說了。當樣本是透過便利方式蒐集,一切就變得更不確定,比方說,我們為了取得樣本,在課堂中給大二學生一點小錢買啤酒。

  這本書跟研究思維的一種嶄新方式有關。來自網路搜尋和其他線上回應的大數據並非一種腦部檢查鏡,但是作者賽斯.史蒂芬斯—大衛德維茲證明大數據提供一種前所未有的方式,讓我們窺探人們的內心世界。人們透過鍵盤可以私密地坦承千奇百怪的事情,譬如在約會網站或搜尋專業意見時吐露心聲,因為在現實生活中講這些事可是要承擔後果的。在其他時候,也正因為不必承擔後果,人們可以吐露自己的一些渴望或恐懼,而不會令人沮喪或有不好的反應。無論是哪一種情況,人們不僅按下按鈕或轉動旋鈕,也鍵入幾兆字元序列中的任何字元序列,以各種爆炸性的組合說出自己的心聲。更棒的是,人們以一種易於彙總分析的形式留下這些數位足跡。這些數位足跡來自各行各業,可以參與不引人注目的實驗,讓刺激變得多樣化並能即時將反應列表顯示。在人們開心提供這些數據之際,網路大數據衍然成形。

  《數據、謊言與真相》不僅僅是一個概念驗證。史蒂芬斯—大衛德維茲的發現一次又一次地顛覆我對自己國家和同胞的先入之見。唐納德.川普(Donald Trump)的潛在支持者來自何處?專欄作家安.蘭德斯(Ann Landers)在一九七六年詢問讀者是否後悔生小孩時,得到的回應令她訝異地發現大多數人都後悔生小孩,蘭德斯有沒有受到不具代表性的自選樣本誤導呢?網路是否要為二○一○年代後期的「過濾氣泡」(filter bubble)*負責?觸發人們犯下仇恨罪行的原因為何?人們會找笑話讓自己開心嗎?雖然我總以為沒有什麼事情能嚇到我,但是網路披露人們性傾向的內情,真的讓我跌破眼鏡,包括發現每個月有一定數量的女性在搜尋「填充玩偶自慰」這回事。就算使用反應時間、瞳孔擴張或功能性神經影像等方法進行實驗,都不可能揭穿這項事實。

  我相信大家都會喜歡《數據、謊言與真相》這本書。史蒂芬斯—大衛德維茲以無比的好奇心和迷人的機智,為二十一世紀的社會科學指出一條新的道路。有了大數據這個無限迷人又能窺探人心的窗口,誰還需要什麼腦部檢查鏡呢?

*「過濾氣泡」指演算法過濾掉個人可能不喜歡或不認同的資訊。
 

詳細資料

  • ISBN:9789864773558
  • 規格:平裝 / 368頁 / 21 x 14.8 x 1.7 cm / 普通級 / 單色印刷
  • 出版地:台灣
  • 適讀年齡:13歲~99歲
 

內容連載

別讓直覺扯你後腿——是什麼造就了NBA球星?

小時候,我只有一個夢想:我希望長大後成為經濟學家和數據科學家。沒有啦,我開玩笑的。小時候我很想成為職籃球員,效法我的英雄——紐約尼克隊明星中鋒派崔克.尤英(Patrick Ewing)。

有時我懷疑每一位數據科學家的內心都像小孩一般,設法弄清楚為什麼自己童年的夢想沒有成真。難怪最近我會調查要在美國職籃(後稱NBA)闖出名號,需要具備什麼條件。調查結果令人驚訝。事實上,調查結果再次證明,有效的數據科學可能如何改變你對世界的看法,以及這些數字可能多麼違反直覺。

我特別關注的問題是:在貧窮家庭長大,還是在中產階級家庭長大,讓你更有可能在NBA成名?

大多數人會猜前者。一般人都認為,在貧困環境下長大,也許由十幾歲未婚媽媽辛苦扶養的環境,有助於培養在這種競爭激烈運動比賽中達到頂尖水準所需的驅動力。

費城高中籃球教練威廉.艾勒比(William Ellerbee)在接受《運動畫刊》(Sports Illustrated)採訪時表示:「郊區小孩打球往往只是為了好玩,但都市貧民區的小孩卻把籃球當成生死攸關的大事。」唉,我是在紐澤西州郊區由雙親扶養長大,而我這個世代最優秀的球員雷霸龍.詹姆斯(LeBron James),是在俄亥俄州阿克倫由一名十六歲貧窮的單親媽媽扶養長大。

事實上,我進行的一項網路調查顯示,大多數美國人的看法跟艾勒比教練和我一樣:NBA球員大多在貧困環境下長大。

這種普遍看法正確嗎?

我們來看看數據怎麼說。目前並沒有關於NBA球員社經背景的綜合數據來源,但是藉由數據檢測,利用來自許多來源的數據,例如basketball-reference.com、ancestry.com等網站和美國人口普查及其他數據,我們可以弄清楚哪些家庭背景最有利於NBA球員的養成。你會發現這項研究使用各種數據來源,其中有些數據來源較大、有些數據較小,有些是網路數據、有些是離線數據。跟一些新的數據來源同樣令人振奮的是,只要傳統來源的數據有幫助,優秀數據科學家不會將其摒除在外。取得問題正確答案的最佳方式是,結合所有可用的數據。

會員評鑑

4
6人評分
|
6則書評
|
立即評分
user-img
4.0
|
2022/10/24
劇透警告
《Everybody Lies》

書中帶岀的道理十分好
正是你不了解事情的真相就千萬別用經驗主觀輕易去給一件事評價
就算你要評價也要用數據去支持這樣才能避免偏見的發生
因為很多事的事實都是和你直覺所想的相反
千萬別被固有觀念套牢自己
展開
user-img
4.5
|
2021/09/03
劇透警告
這本書有趣的地方在於,他在做社會科學之論證時,用的是Google跟色情網站之關鍵字當作數據,總是可以做出有趣的推論,不過當然礙於篇幅,論述是否"鐵",當然還會有很多切入點,但有趣的還是放在他的統計資料的"來源",他的論證正確與否,我倒覺得還好。
展開
user-img
4.0
|
2020/01/09
想回應讀者power8888之觀點,從其對於作者之反對書評中可以明白他對於實驗的統計與設計上具有一定程度之專業性,觀看此書的讀者完全可以參考他的意見作為觀看此書之補充,也是警語。大部份對於數據研究不熟悉的人對於數據研究的結論都過於肯定或是確信,但是其實許多實驗本身下的實驗結果都是十分保留的,這是因為目前統計部分數據大部分僅能確認相關,無法驗證因果。但是大家通常會「超譯」很多研究數據,導致大眾對於數據之錯誤概念。

但是在p先生/小姐的留言下,我想試著為作者平反一點在某些部分過於嚴厲或是可能不夠正確之批評。

第四點中作者明確指出他所使用的數據是在美國用戶中的數據,所以對於其他國家的人因為好奇而搜尋等推論無法成立。但是我很喜歡p先生/小姐對於動機偏誤提供的等等見解,有助我們更小心的檢視這些數據


在第五點的部分、作者所下的結論應該沒有包含移民之關聯試用於所有國家。這邊也想提醒觀看此書之各位,本書中所有實驗數據是針對美國所做的研究,所以這些數據的適用性僅處於美國,因為各國的國情、風土民情、政治環境等不同的變因,這種結果請勿過度超譯為適用於所有國家。

我也不認為作者看不起小型調查研究,認為傳統的實驗室研究將會過氣。他僅是作為研究大數據的人,提供另一種未來研究的可能性。事實上,在本書第三篇他也有提到一些大數據研究之誤區作為提醒。這讓我對於本書之評價提高許多,他並非一昧追求大數據之狂熱者,仍提供關於大數據的正反論述給讀者參考,這使的這本書更具可讀性。



展開
user-img
1.0
|
2019/08/19
大數據的反面教材。

「大數據」從開始竄紅到現在也過了好幾年了,直到最近,不少書籍開始檢討大數據可能的問題,許多人一頭熱的栽進大數據,卻不了解大數據可能的誤用和迷思,或以為自己進行的是大數據分析,本書作者賽斯便是其中之一。賽斯的研究方法挺有趣也非常前衛 ─「Google 搜尋趨勢」。藉由檢視人們到底在 Google 上搜尋了那些關鍵字,來了解人類的行為和態度。這種方式的最大好處便是,除了資料量非常龐大以外,更可以知道人們各種的隱私態度,數以億計的人們在網路上搜尋色情內容、種族歧視、犯罪手法、或各種政治不正確的資訊,畢竟,沒有人會對搜尋引擎說謊。作者很驚訝地發現,人們對 Google 透露了很多不得了的事情,藉由分析這些巨量資料,可以得出許多驚人且違反常識的結論。例如,人們其實有很普遍的種族歧視 (即使表面上不承認)、男性似乎普遍具有戀母情結、同志比例比普遍認為的還要高等等。值得肯定的是,這種新型態的資訊來源的確有趣,揭露了傳統研究方法得不到的資料,但作者一頭熱,完全忽略了這種資料有好幾個非常巨大的缺陷,使得作者下的許多結論「可性度極低」。以下詳細說明為何我會提出這種強烈的反對論點。

PS. 下述我會常常引用本書中的色情搜尋研究作舉例,不喜勿讀

第一:「過度推論」
作者犯了大數據狂熱者常犯的典型錯誤,對數據進行過多的解讀。例如,作者發現男性在搜尋色情影片時,最常搜尋的職業類別是「褓姆」,其他如「老師」、「醫生」、「秘書」等等也都名列前茅,據此推論,佛洛伊德所指稱的戀母情結,很可能確有其事。這種說法連推論的稱不上,只能算是臆測,講難聽點就是瞎掰,喜歡看熟女內容就暗示喜歡自己的老母嗎?這種論述真的是挺可笑的,不知道各位熟女控、御姊控看到這種論述作何感想。此外,作者發現,年齡對於支持哪種隊伍有顯著影響,愛上哪個球隊基本上是 8 歲左右決定的,但仔細看作者給的圖表,發現其效果量其實低的可憐,只有提升10%,8 歲左右愛上的球隊,比起其他年齡區間多出10%的延續效果,卻被作者解釋成具有決定一生的影響力。

第二:「樣本偏誤」
我想應該有不少統計學者不同意 Google 搜尋趨勢的資料可以算做大數據,大數據不是資料多就算,最理想大數據就是「母群體」,直接對母群體分析,便可以略過抽樣與統計推論。關鍵字搜尋結果的資料,不僅稱不上是母群體,在代表性上還是極度偏誤的,那些「沒有進行關鍵字搜索」的人,被排除在樣本之外。以上述色情研究例子來說明,沒有進行職業關鍵字 (如褓姆) 來搜尋的人,包括那些只用番號來找的人、只偏好特定女優的人、只從特定來源獲取內容的人,以及任何不使用搜尋引擎來找的人,都會被排除在外,這種「系統性」的排除多種來源,使得可信度大打折扣。雪上加霜的是,有不少人常會重複搜尋同一關鍵字,同一個人卻大幅增加搜尋「人次」,使特定類型的資料不當膨脹。

第三:「特殊性偏誤」
人們會去搜尋什麼,跟不會去搜尋什麼,兩者具有巨大差異。你大概不會常常搜尋「常識」,因為正常人應該都知曉絕大部分的常識,我們會去搜尋我們不知道的、比較稀有的、違反直覺的、甚至是民俗禁忌的事項,尤其是大多數人以為沒人知道他們估狗了什麼,這使得具有特殊性的關鍵字本來就比較常被人們搜尋。「褓姆」類型的色情內容就是那種比較特殊的類別 ,其他如不倫戀、師生戀、亂倫等等挑戰禁忌的內容,也更加引起青少年的好奇心,它們常被搜尋是因為本身的特殊性,不一定代表人們真的比較偏好這些內容,大眾偏好的常見的內容根本不需要特地去找,首頁就一大堆。筆者特地去檢視 Pxxxhub 上褓姆類型的內容,點閱率就沒有比其他職業還要高。

第四:「動機偏誤」
用同樣一個關鍵字搜索的人,代表他們的想法一樣嗎?很明顯不一定吧。作者蒐集許多種族議題的搜尋結果,發現歐巴馬當當年選後,人們搜尋「黑鬼 (nigger)」的的次數大幅增加好幾百萬,據此推論美國人仍普遍具有種族歧視。先別說過度推論或樣本代表性的問題,在搜尋引擎輸入黑鬼就一定代表了厭惡黑人嗎?或許不少人是,但也可能有黑人也會自己去搜這個詞,只是想了解為什麼有人會有這詞攻擊他們,其他國家的人可能也因為首次黑人當種統,好奇去搜索各種黑人詞彙,包括黑鬼在內,但不代表他們真的厭惡黑人。

第五:「因果推論偏誤」
這也是大數據狂熱者常犯的錯誤,大家都知道相關不等於因果,但一頭熱栽進去時常常忘了這點,作者指出,美國的數據顯示出,移民較多的州表現也比較好,據此推論移民有益。然而,這是因為全世界最頂尖的人才都往美國跑才有這種結果,賽斯大概不清楚敘利亞難民湧入歐洲各國,對他們造成極大的財政負擔。

先澄清一點,不是作者的所有研究都具備這五點偏誤,Google 關鍵字搜尋的研究大多包含了二、三、四,其中樣本偏誤可以說是一定有,其他的非關鍵字研究有些是還算是中肯的,有些也犯了一、五。有趣的是,這些缺陷作者或多或少知道,但作者的心態就像是「我知道這些限制影響了我們結論,但我依舊認為.....」,勉強承認資料是有問題的,然後又當作這些問題不存在。事實上,若要完全承認這些偏誤,作者最引以自豪的 Google 搜尋趨勢研究幾乎都不可信,賽斯不正面應對這些問題,反而採逃避的態度。

作者是哲學系出身,在讀了李維特的「蘋果橘子經濟學」之後大受啟發,決定攻讀經濟學博士,以「數據科學家」為志業,這點讓人讚賞,但遺憾的是,他也一併繼承李維特研究的缺點,號稱蘋果橘子經濟學進階版,連缺點也一併放大。蘋果橘子經濟學作為通俗讀物儘管暢銷,但其實很受學界批評,李維特是經濟學家,但喜愛跨足研究心理、社會、犯罪、政治學領域,然而他對這些領域其實不太熟悉,儘管「班門弄斧」一番引述大量研究,但許多結論卻是非常有問題。本書作者賽斯也出現同樣通病,甚至觀點非常狹隘,竟然覺得只有經濟學家在做「自然實驗」,事實上,心理學、犯罪學、社會學、政治學、人類學、公共衛生學、流行病學、醫學等等多到你數不清的領域都會採用自然實驗的設計,可見作者眼界之小。作者還聲稱「迴歸不連續設計」是經濟學家發明的,實際上這是教育心理學家開創的東西,賽斯連自己引述的文獻都沒看清楚。

其實是相當可惜,作者本意良好,不管是大數據或 Google 搜尋趨勢這類新型態的資料,確實大有可為,但作者矯枉過正,熱切擁抱大數據,然後貶抑其他研究方法,看不起小型調查研究,認為傳統的實驗室研究將會過氣,以後都會被大數據取代。作者眼界狹小之餘,還有點狂妄的對其他學科「指點江山」,認為你們這些心理學、社會學、政治學者別再搞那種又貴又小家子氣的研究,大數據才是王道。大數據的一大問題就是混淆變項太多,在釐清變項間關係時要非常小心,作者對此完全沒有察覺,讓我相當懷疑科學方法論是不是根本沒學好,竟然還能念到經濟學博士,一知半解對著其他學科批評,相當令我作噁。
展開
user-img
5.0
|
2019/03/14
作者敘事功力非常強,用語幽默風趣,尤其是作者在書中所研究的案例,和現實生活相當貼近(意識形態、同性伴侶和種族歧視等等的議題)。如果像我一樣,對於「大數據」既有興趣,卻又感到困惑的人,不妨看看這本書,會有全新的思考角度與收穫。
展開

最近瀏覽商品

 

相關活動

  • 破關人生,I'm in!職場「破」力養成指南,電子書/有聲書/影音課程6折起
 

購物說明

若您具有法人身份為常態性且大量購書者,或有特殊作業需求,建議您可洽詢「企業採購」。 

退換貨說明 

會員所購買的商品均享有到貨十天的猶豫期(含例假日)。退回之商品必須於猶豫期內寄回。 

辦理退換貨時,商品必須是全新狀態與完整包裝(請注意保持商品本體、配件、贈品、保證書、原廠包裝及所有附隨文件或資料的完整性,切勿缺漏任何配件或損毀原廠外盒)。退回商品無法回復原狀者,恐將影響退貨權益或需負擔部分費用。 

訂購本商品前請務必詳閱商品退換貨原則 

  • 時報全書系
  • 華文創作展
  • 東立GoodBuy祭