大數據(Big Data)分析與應用：使用Hadoop與Spark(最新版)

5.0

2021/03/14

「天大、地大、台科大」果真名不虛傳！這本講述如何運用Spark平台做大數據分析與機器學習的書，可能是台科大圖書出版來當做教材的。如果能按步就班地把整本書學習完，學生在大數據與機器學習上的實作能力會有相當的水準。台科大果真是曖曖內含光。

話說回來，這兩三年都在弄大數據應用，因此相關的書買了不少也讀了不少。這本書被選中的理由是第九章的「大數據分析應用基礎」中，有一些之前沒看過的程式技巧令我感到興趣。諸如用Map/Reduce寫出「矩陣相乘」的答案、購物籃分析中常見的「頻繁項分析」、搜尋引擎中的「文件資料反向排序」。特別是「相似度計算」小節，正是我先前一直想找到的實作範例，內容十足珍貴。至於「One-hot編碼」部份因為在讀書會研讀的另一本書中已經講述了更有效率的做法，書中內容就略嫌簡單不好用了。

原本打算閱讀這本書時，同時把Scala語言做個深度的練習，因為恰好整本書都是用Scala當範例。不過看到後半段時發現自己已經太習慣用PySpark來撰寫大數據分析程式，有點受不了需要編譯過才能執行的Scala開發手順。後來就把所有後面章節裡的範例，全部改寫成Python語言版本的程式碼。結果整本看完了Scala還是不熟...

如果以要學習如何在Spark平台上做大數據分析與機器學習，這本書真的值得好好閱讀，不愧是台科大的教材。但其中還是有一點令人感到遺憾的，書中的內容有一部份是和林大貴出的「Hadoop+Spark大數據巨量分析與機器學習整合開發實戰」雷同。如果兩本書都有買的人，就會覺得這本書要去頭去尾抓中間了。

展開

選擇語言

:::網站搜尋

大數據(Big Data)分析與應用：使用Hadoop與Spark(最新版)

9折$ 495

全部書評 | 共1則書評

評鑑星等(可複選)

評鑑日期

得獎認證