讀書日
大數據(Big Data)分析與應用:使用Hadoop與Spark(最新版)

大數據(Big Data)分析與應用:使用Hadoop與Spark(最新版)

  • 定價:550
  • 優惠價:79434
  • 優惠期限:2024年04月09日止
  • 運送方式:
  • 臺灣與離島
  • 海外
  • 可配送點:台灣、蘭嶼、綠島、澎湖、金門、馬祖
  • 可取貨點:台灣、蘭嶼、綠島、澎湖、金門、馬祖
  • 台北、新北、基隆宅配快速到貨(除外地區)
載入中...
  • 分享
 

內容簡介

  1.闡述大數據的重要觀念,包括正面的效用與負面的副作用,建立 讀者對大數據正確的認知。
  2.說明大數據時代的因應與挑戰,其中有思維的轉變、大數據分析技術、大數據的應用模式分類,也有大數據分析的流程。
  3.介紹各行各業的大數據經典應用案例,讓讀者體會大數據分析的應用精隨,有機會發揮創造力,開創自己的大數據應用。
  4.介紹大數據分析工具(Hadoop和Spark)的生態系統,期使讀者能充分掌握大數據的技術發展和工具的應用藍圖。
  5.透過對大數據工具的實戰演練,包括安裝、設定、指令操作等,使讀者在具備大數據概念正確理解的同時,還能擁有動手實現的功力。
  6.學習大數據程式語言Scala,熟悉函數式程式設計(functional programming)的特點,以及它對於大數據的操作與處理,提升讀者對大數據分析演算法的開發能力。
  7.使用Spark的機器學習程式庫(MLlib),應用在既有資料集的分析上,讓讀者迅速獲得大數據的預測能力。
 

目錄

觀念篇
第 1 章 進入大數據時代
1-1 大數據時代來了
1-2 「大」數據有多「大」
1-3 大數據的「大」特徵
1-4 大數據的「大」作用
1-5 大數據的「大」問題
1-6 結語

第 2 章 大數據挑戰與因應
2-1 大數據的思維轉變
2-2 大數據案例
2-3 大數據的應用模式分類
2-4 大數據計畫的啟動
2-5 結語

第 3 章 大數據分析技術
3-1 資料科學
3-2 資料分析工具箱
3-3 大數據分析流程
3-4 結語

工具篇
第 4 章 大數據工具與生態系統
4-1 Hadoop/HDFS:分散式檔案系統
4-2 Spark:平行運算框架
4-3 NoSQL 資料庫
4-4 結語

第 5 章 大數據作業系統Ubuntu 的安裝
5-1 安裝虛擬化系統工具Oracle VirtualBox
5-2 新增和設定Ubuntu 虛擬機
5-3 安裝和設定Ubuntu 作業系統

第 6 章 大數據平台Hadoop 和Spark 的安裝
6-1 建立和設定master 主機
6-2 建立slave1 虛擬機
6-3 繼續master 的設定
6-4 啟動Hadoop 主機集群
6-5 試玩HDFS
6-6 試玩Spark
6-7 結束Spark 和Hadoop

第 7 章 HDFS 和Spark RDD 的操作
7-1 HDFS 的操作指令
7-2 Spark RDD 的操作

第 8 章 Scala—大數據的程式語言
8-1 Scala 基礎
8-2 基本的資料型態
8-3 資料集Collections
8-4 邏輯流程控制
8-5 函數
8-6 常用資料集處理方法
8-7 模式匹配Pattern Matching

應用篇
第 9 章 大數據分析應用基礎
9-1 字數計算(word count)
9-2 矩陣相乘
9-3 頻繁項(frequent items)分析
9-4 One-hot 編碼
9-5 相似性(similarity)計算
9-6 文件資料反向排序

第 10 章 大數據分析範例—葡萄酒分析
10-1 葡萄酒品質資料集
10-2 讀入資料檔
10-3 基本統計資料
10-4 建立LabeledPoint 資料類別格式
10-5 資料標準化
10-6 切割資料集
10-7 預測模型訓練
10-8 預測與模式評估MSE
10-9 參數最佳組合與模型測試
10-10 結論

第 11 章 大數據分析範例—書籍推薦
11-1 推薦技術
11-2 書籍資料集
11-3 讀入資料檔與資料前處理
11-4 建立Rating 資料格式
11-5 切割資料集
11-6 預測模型訓練
11-7 計算均方差MSE
11-8 參數最佳組合與最佳模型
11-9 使用最佳模型進行推薦

第 12 章 大數據分析範例—鳶尾花分類
12-1 大數據分析流程
12-2 分類演算法
12-3 鳶尾花資料集
12-4 讀入資料檔與資料前處理
12-5 資料集隨機切割
12-6 模式設定與訓練
12-7 使用評價器(evaluator)計算準確度
12-8 交叉驗證
12-9 使用最佳模式來預測新值

附錄 參考文獻
 
 

詳細資料

  • ISBN:9789864553778
  • 規格:平裝 / 404頁 / 16k / 19 x 26 x 2.02 cm / 普通級 / 雙色印刷 / 初版
  • 出版地:台灣

會員評鑑

5
1人評分
|
1則書評
|
立即評分
user-img
5
|
2021/03/14
「天大、地大、台科大」果真名不虛傳!這本講述如何運用Spark平台做大數據分析與機器學習的書,可能是台科大圖書出版來當做教材的。如果能按步就班地把整本書學習完,學生在大數據與機器學習上的實作能力會有相當的水準。台科大果真是曖曖內含光。

話說回來,這兩三年都在弄大數據應用,因此相關的書買了不少也讀了不少。這本書被選中的理由是第九章的「大數據分析應用基礎」中,有一些之前沒看過的程式技巧令我感到興趣。諸如用Map/Reduce寫出「矩陣相乘」的答案、購物籃分析中常見的「頻繁項分析」、搜尋引擎中的「文件資料反向排序」。特別是「相似度計算」小節,正是我先前一直想找到的實作範例,內容十足珍貴。至於「One-hot編碼」部份因為在讀書會研讀的另一本書中已經講述了更有效率的做法,書中內容就略嫌簡單不好用了。

原本打算閱讀這本書時,同時把Scala語言做個深度的練習,因為恰好整本書都是用Scala當範例。不過看到後半段時發現自己已經太習慣用PySpark來撰寫大數據分析程式,有點受不了需要編譯過才能執行的Scala開發手順。後來就把所有後面章節裡的範例,全部改寫成Python語言版本的程式碼。結果整本看完了Scala還是不熟...

如果以要學習如何在Spark平台上做大數據分析與機器學習,這本書真的值得好好閱讀,不愧是台科大的教材。但其中還是有一點令人感到遺憾的,書中的內容有一部份是和林大貴出的「Hadoop+Spark大數據巨量分析與機器學習整合開發實戰」雷同。如果兩本書都有買的人,就會覺得這本書要去頭去尾抓中間了。
展開

最近瀏覽商品

 

相關活動

  • 21世紀的人生難題,線上解憂價,單本88折,二本85折!
 

購物說明

若您具有法人身份為常態性且大量購書者,或有特殊作業需求,建議您可洽詢「企業採購」。 

退換貨說明 

會員所購買的商品均享有到貨十天的猶豫期(含例假日)。退回之商品必須於猶豫期內寄回。 

辦理退換貨時,商品必須是全新狀態與完整包裝(請注意保持商品本體、配件、贈品、保證書、原廠包裝及所有附隨文件或資料的完整性,切勿缺漏任何配件或損毀原廠外盒)。退回商品無法回復原狀者,恐將影響退貨權益或需負擔部分費用。 

訂購本商品前請務必詳閱商品退換貨原則 

  • 共和國截止加碼
  • 天下雜誌
  • 時報全書系