新到貨2本75折
Hadoop大數據開發基礎

Hadoop大數據開發基礎

  • 定價:239
  • 優惠價:87208
  • 運送方式:
  • 臺灣與離島
  • 海外
  • 可配送點:台灣、蘭嶼、綠島、澎湖、金門、馬祖
  • 可取貨點:台灣、蘭嶼、綠島、澎湖、金門、馬祖
載入中...
  • 分享
 

內容簡介

本書以任務為導向,較為全面地介紹了Hadoop大數據技術的相關知識。

全書共6章,具體內容包括Hadoop介紹、Hadoop集群的搭建及配置、Hadoop基礎操作、MapReduce編程入門、MapReduce進階編程、項目案例:電影網站用戶性別預測。

本書的2~5章包含了實訓與課后練習,通過練習和操作實踐,幫助讀者鞏固所學的內容。

本書可以作為高校大數據技術類專業的教材,也可作為大數據技術愛好者的自學用書。

張良均,信息系統項目管理師,泰迪杯全國大學生數據挖掘競賽的發起人。華南師范大學、廣東工業大學兼職教授,廣東省工業與應用數學學會理事。兼有大型高科技企業和高校的工作經歷,主要從事大數據挖掘及其應用的策划、研發及咨詢培訓。全國計算機技術與軟件專業技術資格(水平)考試繼續教育和CDA數據分析師培訓講師。發表數據挖掘相關論文數二十余篇,已取得國家發明專利12項,主編圖書《神經網絡實用教程》《數據挖掘:實用案例分析》《Python數據分析與挖掘》等多本暢銷圖書,主持並完成科技項目9項。獲得SAS、SPSS數據挖掘認證及Hadoop開發工程師證書,具有電力、電信、銀行、制造企業、電子商務和電子政務的項目經驗和行業背景。
 

目錄

第1章 Hadoop介紹 1
1.1 Hadoop概述 1
1.1.1 Hadoop簡介 1
1.1.2 Hadoop的發展歷史 2
1.1.3 Hadoop的特點 3
1.2 Hadoop核心 4
1.2.1 分布式文件系統——HDFS 4
1.2.2 分布式計算框架——MapReduce 7
1.2.3 集群資源管理器——YARN 9
1.3 Hadoop生態系統 12
1.4 Hadoop應用場景 14
小結 15

第2章 Hadoop集群的搭建及配置 16
任務2.1 安裝及配置虛擬機 17
2.1.1 創建Linux虛擬機 17
2.1.2 設置固定IP 25
2.1.3 遠程連接虛擬機 27
2.1.4 虛擬機在線安裝軟件 29
2.1.5 任務實現 32
任務2.2 安裝Java 32
2.2.1 在Windows下安裝Java 33
2.2.2 在Linux下安裝Java 35
2.2.3 任務實現 36
任務2.3 搭建Hadoop完全分布式集群 36
2.3.1 修改配置文件 36
2.3.2 克隆虛擬機 41
2.3.3 配置SSH免密碼登錄 43
2.3.4 配置時間同步服務 44
2.3.5 啟動關閉集群 46
2.3.6 監控集群 47
小結 50
實訓 50
實訓1 為Hadoop集群增加一個節點 50
實訓2 編寫Shell腳本同步集群時間 51
課后練習 51

第3章 Hadoop基礎操作 53
任務3.1 查看Hadoop集群的基本信息 54
3.1.1 查詢集群的存儲系統信息 55
3.1.2 查詢集群的計算資源信息 58
任務3.2 上傳文件到HDFS目錄 59
3.2.1 了解HDFS文件系統 59
3.2.2 掌握HDFS的基本操作 62
3.2.3 任務實現 65
任務3.3 運行MapReduce任務 67
3.3.1 了解Hadoop官方的示例程序包 67
3.3.2 提交MapReduce任務給集群運行 68
任務3.4 管理多個MapReduce任務 71
3.4.1 查詢MapReduce任務 72
3.4.2 中斷MapReduce任務 74
小結 76
實訓 77
實訓1 統計文件中所有單詞的平均長度 77
實訓2 查詢與中斷MapReduce任務 77
課后練習 78

第4章 MapReduce編程入門 80
任務4.1 使用Eclipse創建MapReduce工程 81
4.1.1 下載與安裝Eclipse 81
4.1.2 配置MapReduce環境 82
4.1.3 新建MapReduce工程 84
任務4.2 通過源碼初識MapReduce編程 86
4.2.1 通俗理解MapReduce原理 86
4.2.2 了解MR實現詞頻統計的執行流程 88
4.2.3 讀懂官方提供的WordCount源碼 89
任務4.3 編程實現按日期統計訪問次數 94
4.3.1 分析思路與處理邏輯 94
4.3.2 編寫核心模塊代碼 95
4.3.3 任務實現 97
任務4.4 編程實現按訪問次數排序 99
4.4.1 分析思路與處理邏輯 99
4.4.2 編寫核心模塊代碼 100
4.4.3 任務實現 102
小結 104
實訓 104
實訓1 獲取成績表的高分記錄 104
實訓2 對兩個文件中的數據進行合並與去重 105
課后練習 107

第5章 MapReduce進階編程 110
任務5.1 篩選日志文件並生成序列化文件 111
5.1.1 MapReduce輸入格式 111
5.1.2 MapReduce輸出格式 113
5.1.3 任務實現 113
任務5.2 Hadoop Java API讀取序列化日志文件 115
5.2.1 FileSystem API管理文件夾 115
5.2.2 FileSystem API操作文件 119
5.2.3 FileSystem API讀寫數據 121
5.2.4 任務實現 123
任務5.3 優化日志文件統計程序 124
5.3.1 自定義鍵值類型 124
5.3.2 初步探索Combiner 128
5.3.3 淺析Partitioner 130
5.3.4 自定義計數器 132
5.3.5 任務實現 134
任務5.4 Eclipse提交日志文件統計程序 137
5.4.1 傳遞參數 137
5.4.2 Hadoop輔助類ToolRunner 139
5.4.3 Eclipse自動打包並提交任務 140
小結 144
實訓 144
實訓1 統計全球每年的高氣溫和低氣溫 144
實訓2 篩選氣溫在15~25℃之間的數據 145
課后練習 146

第6章 項目案例:電影網站用戶性別預測 151
任務6.1 認識KNN算法 152
6.1.1 KNN算法簡介 152
6.1.2 KNN算法原理及流程 152
任務6.2 數據預處理 154
6.2.1 獲取數據 154
6.2.2 數據變換 155
6.2.3 數據清洗 160
6.2.4 划分數據集 163
任務6.3 實現用戶性別分類 167
6.3.1 實現思路 167
6.3.2 代碼實現 169
任務6.4 評價分類結果的准確性 179
6.4.1 評價思路 179
6.4.2 實現分類評價 180
6.4.3 尋找優K值 184
小結 188
參考文獻 189
 

詳細資料

  • ISBN:9787115370662
  • 規格:188頁 / 普通級 / 1-1
  • 出版地:中國

最近瀏覽商品

 

相關活動

  • 【科普、飲食、電腦】高寶電子書暢銷書展:人生就是選擇的總和,全展75折起
 

購物說明

溫馨提醒您:若您訂單中有購買簡體館無庫存/預售書或庫存於海外廠商的書籍,建議與其他商品分開下單,以避免等待時間過長,謝謝。

大陸出版品書況:因裝幀品質及貨運條件未臻完善,書況與台灣出版品落差甚大,封面老舊、出現磨痕、凹痕等均屬常態,故簡體字館除封面破損、內頁脫落...等較嚴重的狀態外,其餘所有商品將正常出貨。 

 

請注意,部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

調貨時間:若您購買海外庫存之商品,於您完成訂購後,商品原則上約45個工作天內抵台(若有將延遲另行告知)。為了縮短等待的時間,建議您將簡體書與其它商品分開訂購,以利一般商品快速出貨。 

若您具有法人身份為常態性且大量購書者,或有特殊作業需求,建議您可洽詢「企業採購」。 

退換貨說明 

會員所購買的商品均享有到貨十天的猶豫期(含例假日)。退回之商品必須於猶豫期內寄回。 

辦理退換貨時,商品必須是全新狀態與完整包裝(請注意保持商品本體、配件、贈品、保證書、原廠包裝及所有附隨文件或資料的完整性,切勿缺漏任何配件或損毀原廠外盒)。退回商品無法回復原狀者,恐將影響退貨權益或需負擔部分費用。 

訂購本商品前請務必詳閱商品退換貨原則

  • 翦商作者新作79折
  • 針灸匠張寶旬
  • 浪漫小說精選3本72折