大數據 (電子書)

中文電子書
商業理財
88折$ 237
5 /5
12位讀者評分
5
67%
4
25%
3
8%
2
0%
1
0%

精選書評

全部書評 | 共12則書評

評鑑星等(可複選)
評鑑日期
user-img
5.0
|
2024/04/21
作者 Viktor Mayer-Schonberger 和 Kenneth Cukier,前者是牛津大學網路研究所教授,後者是《經濟學人》雜誌資料編輯,此書出版以英文出版於 2013 年,後手上的為第一版的繁體中文翻譯本。全書旨在說明大數據分析將能提供預測,並且探討這工具會如何改變我們的生活、工作和思考。書中分為十章,分別探討大數據的現在與未來、風險與管控、價值與延伸意義、因果關係不再重要、一切都可資料化等。

兩位作者開宗明義,說明世界上的資料正在急速增長之中,甚至乎超過機器現時能處理的量,假如公元前三世的亞歷山大圖書館是當時知識的總和,現時擁有三百二十座圖書館的資料量。巨量資料需要達到足夠規模才可成事,從科學與社會帶來改變,然後會改變我們的生活、互動與思考方式。

其次,書中提出在大數據時代會有三大趨勢:能夠獲取和分析的資料量大增;不應堅持一切都精準;拋棄因果關係,而接納相關性。當統計學要求隨機抽樣,而大數據下不再抽樣,而用數據母體的完整資料集,理論不會終結,只是不會再從假說入手而已。資料數量比品質重要,而且在大數據下可能十分雜亂無章。

再者,作者認為巨量資料會為市場、社會和企業帶來價值,資料成為了生產要素來改變商業模式,比如沃爾瑪找到了颶風和小甜點的相關性來發財。資料化 (datafication) 與數位化 (digitalization) 不同,從文字到數字都在記錄世界屬前者,而數位化將資訊轉為機器可讀的格式。可以說是 Amazon 看到書籍數位化的價值,而 Google 則看到書籍的資料化價值。

此外,書中提出巨量資料的價值在於使用,而不是擁有,因此鼓勵授權給第三方使用,開放資料使其價值最大化。當然作者並不信奉不是大數據至上,更在書中後半部分討論其陰暗面,包括大數據改變了私隱的界線,現時的法律可能失守而需要按時代更替。
展開
user-img
4.5
|
2024/02/01
多年來,我一直忽略閱讀《大數據》,但最近AI的快速發展, 利用大量的資料去訓練AI, 使得我不得不開始重視大數據這一塊領域, 感到必須深入研究。這本書清晰區分了大數據分析與傳統統計方法,特別強調了樣本抽樣的重要性。在當今數據濫觴的年代,使用母體數據進行分析變得更加現實。書中明確指出,大數據分析不再像以往一樣依賴嚴格的抽樣技巧,而更注重利用相關性。這本書為理解大數據提供了實用的視角,令人受益匪淺。
展開
user-img
5.0
|
2024/01/30
從2015年開始接觸Hadoop平台以來,一直專職在大數據應用和電商推薦系統。有趣的是,一路上我一直沒看過這本幾乎被視為巨量資料聖經的大數據,理由挺傲嬌的,那時心想「如果看了這本書,作法說不定會被引導,而走不出自己的路…」。而為什麼在2024年的今天會動心起念想看這本大數據?原因是經過這些年在大數據的專研與實務經驗,中間遇到許多困難與挑戰,累積自身對這個資訊應用領域的觀點與看法。這時來吸收業界先進的思維與方針,才不會一味的照單全收,更能淬鍊出書中的真知灼見,滿載而歸。

不知你有沒有發現,在新聞報導裡只要有用到數據分析的情況,一律要說是大數據分析。然而怎麼樣的資料才能叫大數據?GB?TB?PB?用單純的資料容量大小適合嗎?答案當然是NO。樣本=母體,在巨量資料的三大特質中,這是最具體能區分傳統的統計分析和巨量資料分析的差異。書中明確的指出,在過去,資料搜集、儲存、處理成本相對高昂,抽樣是一門相當重要的學問,能有效地將分析成本壓低到最小,讓數據分析可以充分應用在各個社會科學和商業領域。以抽象的理論為起點,針對假說進行取樣蒐集資料,最後再針對資料進行相關性分析,是傳統統計學門的標準作業流程。但在資料爆炸的網路時代,加上各種開源的大數據工具蓬勃發展,以母體資料來進行統計分析不再是天方夜談的空想。雖然資料科學家的專業知識,被認為由統計分析、數據工程和資料視覺化三個領域交集而成。在實務操作時統計分析這塊著墨的深度,尚不如其它兩者,大約有基礎的統計能力即可應付一般需求。也如同作者而言,大數據分析十之八九不會用到抽樣技術。

而在巨量資料喊得震天價響的幾年之後,多數企業卻發現大數據帶來的影響並不顯著。首先,不是每個企業都能獲取巨量資料,因此頂多只能扮演資料運用的角色。再者,巨量資料先天的雜亂(或說不精確)特質,如果想廣泛運用,得打破企業運營對數字吹毛求疵的傳統,更讓經營決策高層裹足不前,敬而遠之。因此在企業界,能看到的大數據成功案例,多是打造更優秀的機制、工具,屬於戰術性質,很少看到企業以巨量分析的數據當做訂定戰略方向的核心指標。即便如此,張開雙手擁抱資料數量比資料品質更重要,就促成了更準確的谷歌翻譯模型、亞馬遜推薦系統等,這些都是由簡單的模型加上大量資料,卻打敗複雜但資料量少的模型的例子。

相關性不等於因果關係是反智一書裡耳提面命的重要觀念。然而大數據運用卻是要你張開雙手擁抱相關性,別在拘泥在因果關係。像是在推薦系統中效果最顯著的購物籃分析和谷歌的關鍵字預測流感趨勢等例子,都是利用正是如此,而非苦思為何如此。對理論假說進行實驗設計,以控制組和對照組的資料進行因果關係分析,是科學知識賴以累積的碁石。但大數據的分析思維並不追求這種費時秏工的科學精神,利用低成本的相關性分析,應用在追求成果最大化的領域中(例如商業、政策),就能獲取超乎想像的回報。而相關分析和因果分析也絕不是互斥對立的觀點,有效地利用相關分析當做操作變數的過濾器,可以減少未來要進行實驗設計的變數項目。大數據運用裡的預測分析則是以更積極的態度來運用相關性,利用高度相關性的變數做為想預知事項的有效指標,例如異常的刷卡結帳頻率可能是盜刷。所以想用大數據來找出流失客戶的原因這個命題是有問題的,因為巨量數據分析是找出相關性,並無法真正的找出因果關係,想找到原因得用問券調查和實驗設計等傳統科學作法。

除了上述說明大數據三項特質的豐富內容外,書中也進一步對資料的數位化和資料化間的差異提出說明。也因為數位資料是經濟學者所謂的非競爭商品(某人的使用不妨礙他人使用),所以針對同一份巨量資料的無限制次數運用是可行的。一但出現新的運用觀點,既可對舊有的資料進行再次利用。也可和其它外部資料重新組合、在資料蒐集的過程中額外取得其它面向的資料,都是增進巨量資料價值的具體作法。讀完大數據會深刻領悟,巨量資料像是取之不盡的太陽能,照亮著數據分析的現在與未來。
展開
user-img
4.0
|
2019/01/05
這本書出版於2013年,也有入選當年金融時報的商業書決選。儘管已經隔了五年,大數據這個概念越來越火熱,我有同學去喬治亞理工學院念了一個大數據分析的碩士,畢業後直接進亞馬遜當分析員。現在每個行業最火紅的職缺好像都跟分析資料有關! 好奇之下google一下,也有一些人開始預言大數據也有可能泡沫化...大環境的趨勢,真的會讓大部分人跟隨。統計學系在幾年之前也被戲稱沒什麼出路,瞬間峰迴路轉,資料科學家橫空出世。越想逃離數學,越發現數學無所不在啊XD

這本書主要分為八個部分,沒有技術性的描述,單純把大數據(或者說資料分析)這個領域介紹給一般讀者。作者是這個領域的執牛耳者,幾十年前就開始關注資料在人類社會發展中扮演的角色。根據他的理念,資料就像是未來的石油,驅動生活的方方面面。說實話我閱讀本書以前,對這種像做彌撒的書(宣稱某個東西能夠如上帝般衝擊人類)有點存疑,但作者的論述功力的確扎實,他把大數據的概念用很淺顯易懂的文字教給讀者,讓本書成為認識大數據的最佳起點之一。

人類使用資料分析由來已久,統計學透過抽樣,試圖用客觀的資料解釋一切;會計學的誕生也是使人類複雜的商業交易分門別類,有跡可循;經濟學的目標是建置模型,分析經濟行為的成因。資料讓人們在複雜的世界中掌握一些規則,我們據此做出決策。

傳統上,人們在分析資料時,會希望把樣本的代表性提高,力求精準,但是人類的活動越來越複雜,電腦的發明、處理器能力的躍升,讓產出的資訊量成指數型成長,資訊氾濫已經是常態,這是一體兩面的,現在我們有能力取得更多珍貴的資訊,但若資訊超載,我們反而不知所措了。

面對這種處境,我們的生活有很多面向都被迫改變。甚至連思維模式都要進行修正,才能更準確的判斷任何事情。小數據時代的思維落伍了,現在講求的不再是[用樣本代替母體],而是[樣本等於母體],基本精神就是透過電腦高效的運算能力,儘可能把越多的數據納入考量,追求事物之間的關聯性,因果關係比較不重要了。舉個例子,"假如"全聯發現每次颱風要來了,刮鬍刀的銷量暴增一百倍,刮鬍刀一定會被擺放在收銀機旁邊。這個現象真正的原因不重要,重要的是發現兩件事之間的關聯性,這就夠了。

接著作者就舉了好多好多例子證明幾乎所有事情都能數據化,假如能善加使用,發掘背後隱藏的意義,人們就能獲得極大的好處。這個趨勢造就了新的商業模式,許多新型態的工作也趁勢而起,數據成為一個金礦,淘金的熱潮席捲各行各業,每間公司在某種程度上都必須轉型為數據公司。數據中介商、分析技術公司、資料科學家變成未來的要角。

不過呢,跟其他科技一樣,大數據有其黑暗面,特別是隱私權的疑慮,已經成為這幾年最熱烈討論的議題。臉書、亞馬遜、谷歌...科技巨頭蒐集每個人的資料,到底用來幹嘛了呢? 除了個性化投放廣告,是否有祕密的濫用,卻不為人知呢? 歐盟今年通過的GDPR提供未來隱私保護一個指引,畢竟這幾年資訊濫用的情況層出不窮: Cambridge Analytica、俄羅斯干預美國總統大選的假新聞...大數據的應用似乎沒那麼安全。

大數據又會如何影響政府呢? 不同於民間企業,政府可以強制蒐集民眾的資訊。最壞的就像歐威爾1984裡全面監控的社會,令人擔憂的是這正在逐步成為現實呀><。 大數據的導入有隱憂,因此我們必須盡快確立制衡的機制。除了最基本的法律修正,釐清數據使用的許可和責任歸屬更重要。另外可以預期的是社會制度會進行校正,就像會計學的發展延伸出審計學,使用大數據,必須有對應的審核機制。

最後,作者提醒人們,資料分析很重要,但人性才是最關鍵的部分,數據不能說明一切。過度依賴數據可能很危險,大數據應用之餘,我們人腦的判斷才是其價值所在。舉個嚴重的例子,電影關鍵報告裡,湯姆克魯斯逮捕了一個"被預測-將要"殺害妻子的人。純粹仰賴數據的話,這個男子將因為自己沒有做過的事而遭受懲罰。這個概念不難理解,假如人們把"預測"當成一切的原則,身而為人最重要的自由權利等同作廢。

大數據好夯,應該大部分的人都已經有基礎認識了,不過這本書依然值得一讀,關於它的未來走向,令人拭目以待,我們也得積極參與其中,別讓明天成為菲利浦狄克式的未來。
展開
user-img
5.0
|
2018/01/12
大數據的經典著作,要了解大數據的思維適合讀這本書,書中舉不少成功的商業案例談大數據思維,讓讀者了解究竟「何謂大數據?大數據的定義是什麼?與傳統的因果思維有什麼差異?大數據下的致勝模式又是如何?」。
展開
user-img
4.0
|
2016/07/31
大數據是一個趨勢。
在這個趨勢裡,如何把大量的資訊轉換成有用的資料才是最重要的,這也是現代人最重要的課題之一。
書中提出一個特別的觀點,在大數據的時代裡我們不需要再花時間去尋找事情的原因,因為重要的是結果。
展開
user-img
4.0
|
2016/07/19
網路世界似乎越來越懂使用者在想甚麼?許多人也許會察覺,網頁頁面、APP置入的小廣告,或者社群網站中跳出的議題,越來越能夠精準符合使用者的喜好,這其實是大數據(big data)的其中一項運用方式。

從行動電話的崛起至重度使用網路的時代,使用者的行為,皆能夠透過這些與生活十分密切的工具紀錄,連帶儲存了巨量資料,也被稱之為「大數據」。這些資料在近幾年被多方分析後,衍生出各式各樣的運用方式。

近年針對大數據此一主題的書籍暴增,內容多是大數據應用的部分加深討論。而這本2013出版的《大數據》,包含了大數據的來源、衍生的應用、潛在風險...等,帶給讀者全面性的大數據概念,解開驅使網路人性化的秘密。

看完就可以成為大數據的初級專家!
展開
user-img
5.0
|
2016/07/08
高登.貝爾和吉姆.金默,曾在2010年發表《數位記憶革命:未來生活趨勢與10大商機》,只要儲存單位夠大,處理速度夠快,基本上自己也能成為某個區域的神,甚至醫生也要參照你給它的數據來替你治病,透過網路世界,完完全全實現秀才不出門能知天下事的預知境界。

  相同道理,只要某個機構能完全瞭解,你瀏覽過的任何一筆資料,都將其儲存,無一獨漏,那你一舉一動,就同如彼得.威爾執導,金.凱瑞、蘿拉.琳妮主 演,(The Truman Show)台譯《楚門的世界》一樣,就連信用卡公司只要參照你平時上網習慣及交友方向,大致就能做出是否核卡通過的決定,保險公司判定需不需體檢也一樣, 只要參照你的生活作息,飲食習慣,工作環境,就能針對你身體是否健康,整理出需體檢%多高,進一步降低保險公司體檢費支出。

  (Big Data)巨量資料到底多大,整理之容量計算單位如下:
•1 Kilobyte (KB) = 1024 Bytes
•1 Megabyte (MB) = 1024 KB
•1 Gigabyte (GB) = 1024 MB
•1 Terabyte (TB) = 1024 GB → 目前普遍使用現階
•1 Petabyte (PB) = 1024 TB
•1 Exabyte (EB) = 1024 PB
•1 Zettabyte (ZB) = 1024 EB
•1 Yottabyte (YB) = 1024 ZB


  所以有這麼大儲存空間,還有什麼事辦不到?就同如一個活了上千年的智者,還有什麼事他會不曉得。
展開
user-img
3.0
|
2014/11/15
大數據這本書提供多種領域的例證說明數據的用途。隨著科技的發展,資料的蒐集、儲存與應用將更廣泛而多元。根據不同用途,同份資料可以產生不同的應用性。我想這些在不久的未來將逐一出現在人類的生活中。作者在書中描繪出大資料時代的未來。

即使作者列舉「相關性」的用處,甚至主張不再堅持因果,我對於這些主張採保留態度。首先,相關性的計算牽涉資料的編碼,很多資料並非一開始就以數字的狀態呈現,如何定義並賦予這類資料數字是個很大的學問與門檻。其次,即使數據顯示高「相關性」也可能只是巧合,未必會有因果關係,如何判斷並非僅靠數字就能解釋。第三,資料之間的因果關係、時間序列和間接影響因素等並非單從相關性就能推測,尚須許多研究技巧去驗證假設。因此,我認為這本書的確是了解「相關性」應用領域的極好入門書,卻忽略支持「相關性」分析的種種知識。

關於資料蒐集,作者在書中提到一個例子不禁讓我思考:如果用抽樣就能得出結果(耗時短),有必要蒐集接近母體的數據再分析嗎(耗時長)? 例如要儘早維修可能發生氣爆的地下管線,理性思考就知到年代久遠、較少維護的管線有較高風險,並不須要等待大數據的「相關性」分析出爐再去行動。當然,為了即早維修高風險管線,每條管線最初的資料都必須登記在案,但這只牽涉到記錄,不須相關性分析。

相關性分析中,有些牽涉因果(例如管線年代久遠,到了現代出問題的風險高),有些不牽涉因果(例如買了這本書的人也買某類的書或其他物品,這可能是單純個人偏好)。作者在書中幾處曾提即「相關性」只在某些領域會很適用,卻沒有對於這些領域具體著墨,甚是可惜。然而作者集結各領域的大數據應用案例,的確值得一讀。
展開
user-img
5.0
|
2013/11/15
大數據真的是「亦正亦邪」的事情!有陣子我曾經努力想找出如何可以幫助自己消逝在這個數據裡面不被臆測,後來發現根本沒有辦法。這不是「不要使用信用卡」、「不要登入」的問題,甚至不是「不要只選取特定某類資料」可以避開的了,這就是巨量數據(大數據)的可怕之處——單單只是掌握我的網頁瀏覽數據,甚至就可以推斷個人,如果搭配監視器、信用卡刷卡記錄等等,單一個人根本是無所遁形的!

當然,如果是在公共行政、醫療、教育等方面來使用這些資料,相信敝國政府從此以後終於要步上正軌了——拜託快點建立土石流資料庫、水土資料庫、異常氣候資料庫、人口資料庫、環境資料庫⋯⋯然後做點正事。

「如果能找出因果關係,也是好事一件。但問題就在於因果關係其實難以捉摸,常常我們以為發現了,卻只是欺騙自己而已。
如果說巨量資料教了我們什麼,應該就是有時候不用追根究柢、找出真正原因,只要能夠作出更好的選擇、得到改善,就已經足夠了。」

(不過光把這個政府教懂,再讓他們來找專家、請專家分析數據,或許10年又過去了!)可惜我是猜我們的政府真的做不到這點,倘若他們有權力可以搜集這麼巨量的資料,我或許擔憂多過於期待很多很多倍!(不過我也是多慮了!不管人民有無賦予他們這個權力,他們都認為自己可以這麼幹,即使是國會也敢監聽啊!)(茶)

所以,當幾乎所有趨勢家、科技愛好者、商業從業人員都在研究「巨量資料」時,作為一般百姓的人們,究竟是該開心巨量資料的正面效益,還是負面效益呢?⋯⋯這樣問大概已經直覺顯示出這個讀者的過度悲觀了吧?!

「除了隱私受損、以及沒有犯行也會獲罪之外,還有第三種風險:資料獨裁,也就是開始陷入對資訊和分析的迷戀,凡是皆以資料為尊,最後形成濫用。如果以負責的態度使用巨量資料,會是一個理性協助決策的工具。但如果用得不夠明智,就會成為強權工具,造成壓迫——輕則有可能是讓客戶和員工感到委屈,重則可能使得公民受害。」

幸好,如果只是擁有一大堆資料就想要推斷一些什麼,本身並不是「說有就有」那麼簡單!本書應該搭配《精準預測》服用,才能真的從大數據中得到什麼(而且這個「什麼」不會是根本就錯得離譜的模式)。這個政府應該看嗎(摸下巴)?不過他們好像不看書!(噗!還好?)
展開
user-img
5.0
|
2013/08/16
Big Data是一本可以顛覆你思考邏輯的書籍,它會給你很多你從沒思考過的觀念與想法,你很難不受到這本書的衝擊。作者用很多例子讓你在了解這些變化的時候不會覺得枯\燥,加上這些例子和我們現在的生活模式都有所雷同,所以你不會覺得很難理解!是一本是和普羅大眾的書籍,只要你常使用網路,或者是行動通訊的使用者,都應該看看這本書。
展開
user-img
5.0
|
2013/07/07
Big Data又稱為「巨量資料」,其概念凌駕於資料庫、資料倉儲之上,採用各種統計模型交叉分析相關性。本書主軸在於資料化的概念、歷史故事及其應用,並以電影「關鍵報告」為例,說明「相關性」與「因果關係」哲理與區別,並可作為未來法規制定的基礎和原則。
本書讓人們了解,現代電腦的應用已不再是一部打字機,而是可以挖掘出未知金礦(Data Mining)的工具!
展開