大數據(Big Data)分析與應用:使用Hadoop與Spark(最新版)

中文書
專業/教科書/政府出版品
9折$ 495
5 /5
1位讀者評分
5
100%
4
0%
3
0%
2
0%
1
0%

全部書評 | 共1則書評

評鑑星等(可複選)
評鑑日期
user-img
5.0
|
2021/03/14
「天大、地大、台科大」果真名不虛傳!這本講述如何運用Spark平台做大數據分析與機器學習的書,可能是台科大圖書出版來當做教材的。如果能按步就班地把整本書學習完,學生在大數據與機器學習上的實作能力會有相當的水準。台科大果真是曖曖內含光。

話說回來,這兩三年都在弄大數據應用,因此相關的書買了不少也讀了不少。這本書被選中的理由是第九章的「大數據分析應用基礎」中,有一些之前沒看過的程式技巧令我感到興趣。諸如用Map/Reduce寫出「矩陣相乘」的答案、購物籃分析中常見的「頻繁項分析」、搜尋引擎中的「文件資料反向排序」。特別是「相似度計算」小節,正是我先前一直想找到的實作範例,內容十足珍貴。至於「One-hot編碼」部份因為在讀書會研讀的另一本書中已經講述了更有效率的做法,書中內容就略嫌簡單不好用了。

原本打算閱讀這本書時,同時把Scala語言做個深度的練習,因為恰好整本書都是用Scala當範例。不過看到後半段時發現自己已經太習慣用PySpark來撰寫大數據分析程式,有點受不了需要編譯過才能執行的Scala開發手順。後來就把所有後面章節裡的範例,全部改寫成Python語言版本的程式碼。結果整本看完了Scala還是不熟...

如果以要學習如何在Spark平台上做大數據分析與機器學習,這本書真的值得好好閱讀,不愧是台科大的教材。但其中還是有一點令人感到遺憾的,書中的內容有一部份是和林大貴出的「Hadoop+Spark大數據巨量分析與機器學習整合開發實戰」雷同。如果兩本書都有買的人,就會覺得這本書要去頭去尾抓中間了。
展開