中文書
商業理財

大數據(新版):「數位革命」之後,「資料革命」登場: 巨量資料掀起生活、工作和思考方式的全面革新

麥爾荀伯格,庫基耶

79折$ 316
user-img
5.0
|
2024/01/30
好酒越陳越香,好書也是~
從2015年開始接觸Hadoop平台以來,一直專職在大數據應用和電商推薦系統。有趣的是,一路上我一直沒看過這本幾乎被視為巨量資料聖經的大數據,理由挺傲嬌的,那時心想「如果看了這本書,作法說不定會被引導,而走不出自己的路…」。而為什麼在2024年的今天會動心起念想看這本大數據?原因是經過這些年在大數據的專研與實務經驗,中間遇到許多困難與挑戰,累積自身對這個資訊應用領域的觀點與看法。這時來吸收業界先進的思維與方針,才不會一味的照單全收,更能淬鍊出書中的真知灼見,滿載而歸。

不知你有沒有發現,在新聞報導裡只要有用到數據分析的情況,一律要說是大數據分析。然而怎麼樣的資料才能叫大數據?GB?TB?PB?用單純的資料容量大小適合嗎?答案當然是NO。樣本=母體,在巨量資料的三大特質中,這是最具體能區分傳統的統計分析和巨量資料分析的差異。書中明確的指出,在過去,資料搜集、儲存、處理成本相對高昂,抽樣是一門相當重要的學問,能有效地將分析成本壓低到最小,讓數據分析可以充分應用在各個社會科學和商業領域。以抽象的理論為起點,針對假說進行取樣蒐集資料,最後再針對資料進行相關性分析,是傳統統計學門的標準作業流程。但在資料爆炸的網路時代,加上各種開源的大數據工具蓬勃發展,以母體資料來進行統計分析不再是天方夜談的空想。雖然資料科學家的專業知識,被認為由統計分析、數據工程和資料視覺化三個領域交集而成。在實務操作時統計分析這塊著墨的深度,尚不如其它兩者,大約有基礎的統計能力即可應付一般需求。也如同作者而言,大數據分析十之八九不會用到抽樣技術。

而在巨量資料喊得震天價響的幾年之後,多數企業卻發現大數據帶來的影響並不顯著。首先,不是每個企業都能獲取巨量資料,因此頂多只能扮演資料運用的角色。再者,巨量資料先天的雜亂(或說不精確)特質,如果想廣泛運用,得打破企業運營對數字吹毛求疵的傳統,更讓經營決策高層裹足不前,敬而遠之。因此在企業界,能看到的大數據成功案例,多是打造更優秀的機制、工具,屬於戰術性質,很少看到企業以巨量分析的數據當做訂定戰略方向的核心指標。即便如此,張開雙手擁抱資料數量比資料品質更重要,就促成了更準確的谷歌翻譯模型、亞馬遜推薦系統等,這些都是由簡單的模型加上大量資料,卻打敗複雜但資料量少的模型的例子。

相關性不等於因果關係是反智一書裡耳提面命的重要觀念。然而大數據運用卻是要你張開雙手擁抱相關性,別在拘泥在因果關係。像是在推薦系統中效果最顯著的購物籃分析和谷歌的關鍵字預測流感趨勢等例子,都是利用正是如此,而非苦思為何如此。對理論假說進行實驗設計,以控制組和對照組的資料進行因果關係分析,是科學知識賴以累積的碁石。但大數據的分析思維並不追求這種費時秏工的科學精神,利用低成本的相關性分析,應用在追求成果最大化的領域中(例如商業、政策),就能獲取超乎想像的回報。而相關分析和因果分析也絕不是互斥對立的觀點,有效地利用相關分析當做操作變數的過濾器,可以減少未來要進行實驗設計的變數項目。大數據運用裡的預測分析則是以更積極的態度來運用相關性,利用高度相關性的變數做為想預知事項的有效指標,例如異常的刷卡結帳頻率可能是盜刷。所以想用大數據來找出流失客戶的原因這個命題是有問題的,因為巨量數據分析是找出相關性,並無法真正的找出因果關係,想找到原因得用問券調查和實驗設計等傳統科學作法。

除了上述說明大數據三項特質的豐富內容外,書中也進一步對資料的數位化和資料化間的差異提出說明。也因為數位資料是經濟學者所謂的非競爭商品(某人的使用不妨礙他人使用),所以針對同一份巨量資料的無限制次數運用是可行的。一但出現新的運用觀點,既可對舊有的資料進行再次利用。也可和其它外部資料重新組合、在資料蒐集的過程中額外取得其它面向的資料,都是增進巨量資料價值的具體作法。讀完大數據會深刻領悟,巨量資料像是取之不盡的太陽能,照亮著數據分析的現在與未來。