新到貨2本75折
Spark大數據實例開發教程

Spark大數據實例開發教程

  • 定價:354
  • 優惠價:87308
  • 運送方式:
  • 臺灣與離島
  • 海外
  • 可配送點:台灣、蘭嶼、綠島、澎湖、金門、馬祖
  • 可取貨點:台灣、蘭嶼、綠島、澎湖、金門、馬祖
載入中...
  • 分享
 

內容簡介

書中第1章首先通過介紹Spark的生態系統和RDD編程模型,使讀者能夠快速的對Spark技術的生態環境以及對Spark的RDD編程模型有個直觀的了解。第2章,首先介紹了Spark應用的兩種部署模式;然后在應用部署模式基礎上,開始Spark實戰的案例與解析,通過提供一個完整的基礎案例,使讀者了解一個Spark應用的大致處理流程;接着對實戰中的重點部分,結合源碼分析、監控日志分析等深入解析了Spark運行機制、DAG圖等關鍵內容;最后給出Spark開發者常用的應用程序構建案例與分析,以及調試環境搭建的案例與應用調試的案例。第3章重點針對SparkSQL子模塊進行實戰,首先概要分析了Spark1.3版本中引入的DataFrame,然后基於DataFrame編程模型給出一個完整的基礎案例與解析,接着也是針對實戰中的難度、重點部分,給予了更豐富的案例與深入地分析,最后,重點關注Spark1.3版本中DataFrame當前支持的各種數據源,並給出各種數據源基礎上的案例與分析,數據源包括各種結構化數據文件、Hive表、外部數據庫或現有的RDD。第4章針對流處理進行實戰,首先分析流處理中的關鍵點和難度,並通過實例進行深入解析。然后針對各種數據源的情景,給出由淺入深的實戰案例與解析,並結合部分源碼,分析流處理的性能調優等,並給出實例與分析。第5章針對最著名的分布式內存存儲系統Tachyon進行實戰,並對實戰案例進行分析,內容包括從Tachyon集群部署的案例與分析、Tachyon集群配置的案例與分析等,最后關注Tachyon對Spark應用的性能調優的影響,給出實戰案例及其深入解析。第6章通過大約30個動手實踐的案例循序漸進地展示SparkGraphX框架方方面面的功能和使用方法,並對SparkGraphX的源碼進行解析,並用綜合實戰案例鞏固知識;第7章從快速入門機器學習開始,詳細解析MLlib框架,通過對線性回歸、聚類、協同過濾的算法解析、源碼解析和案例實戰,循序漸進地揭秘MLLib,最后通過對MLlib中BasicStatics、朴素貝葉斯算法、決策樹的解析和實戰,進一步提升掌握Spark機器學習的技能。
 

目錄

前言

第1章 Spark簡介
1.1 什麼是spark
1.2 Spark生態圈
1.2.1 伯克利數據分析協議棧
1.2.2 Spark開源社區發展
1.3 RDD編程模型
1.3.1 RDD抽象概念
1.3.2 RDD的操作
1.3.3 RDD的依賴關系
1.3.4 一個典型的DAG示意圖

第2章 Spark RDD實踐案例與解析
2.1 Spark應用程序部署
2.1.1 Spark應用的基本概念
2.1.2 應用程序的部署方式
2.2 RDD數據的輸入、處理、輸出的基本案例與解析
2.2.1 集群環境的搭建
2.2.2 交互式工具的啟動
2.2.3 文本數據的ETL案例實踐與解析
2.2.4 文本數據的初步統計案例實踐與解析
2.2.5 文本數據統計結果的持久化案例實踐與解析
2.2.6 RDD的Lineage關系的案例與源碼解析
2.2.7 RDD的持久化案例與解析
2.2.8 RDD的構建案例與解析
2.2.9 分區數設置的案例與源碼解析
2.3 RDD API的應用案例與解析
2.3.1 如何查找RDD API的隱式轉換
2.3.2 RDD[T]的分區相關的API
2.3.3 RDD[T]常用的聚合API
2.3.4 DoubleRDDFunctions(self:RDD[Double])常用的API
2.3.5 PairRDDFunctions[K,V]聚合相關的API
2.3.6 RDD相互間操作的API
2.3.7 PairRDDFunctions[K,V]間的相關API
2.3.8 OrderedRDDFunctions[K,V,P<:Product2[K,V]]常用的API
2.4 Spark應用程序構建
2.4.1 基於SBT構建Spark應用程序的實例
2.4.2 基於IDEA構建Spark應用程序的實例
2.4.3 Spark提交應用的調試實例
2.5 移動互聯網數據分析案例與解析
2.5.1 移動互聯網數據的准備
2.5.2 移動互聯網數據分析與解析
2.6 Spark RDD實踐中的常見問題與解答

第3章 Spark SQL實踐案例與解析
3.1 Spark SQL概述
3.2 DataFrame處理的案例與解析
3.2.1 DataFrame編程模型
3.2.2 DataFrame基本操作案例與解析
3.2.3 DataFrame與RDD之間的轉換案例與解析
3.2.4 緩存表(列式存儲)的案例與解析
3.2.5 DataFrame API的應用案例與分析
3.3 Spark SQL處理各種數據源的案例與解析
3.3.1 通用的加載/保存功能的案例與解析
3.3.2 Parquet文件處理的案例與解析
3.3.3 JSON數據集操作的案例與解析
3.3.4 操作Hive表的案例與解析
3.3.5 使用JDBC操作其他數據庫的案例與解析
3.3.6 集成Hive數據倉庫的案例與解析
3.4 基於Hive的人力資源系統數據處理案例與解析
3.4.1 人力資源系統的數據庫與表的構建
3.4.2 人力資源系統的數據的加載
3.4.3 人力資源系統的數據的查詢

第4章 Spark Streaming實踐案例與解析
4.1 Spark Streaming概述
4.2 Spark Streaming基礎概念
4.3 企業信息實時處理的案例與解析
4.3.1 處理TCP數據源的案例與解析
4.3.2 處理HDFS文件數據源的案例與解析
4.3.3 處理Kafka數據源的准備工作
4.3.4 基於Receiver讀取Kafka數據的案例與解析
4.3.5 直接讀取(無Receiver)Kafka數據的案例與解析
4.3.6 處理Flume數據源的實踐准備
4.3.7 基於Flume風格的推送數據案例與解析
4.3.8 定制FlumeSink的拉取數據案例與解析
4.4 性能調優
4.4.1 減少批處理的時間
4.4.2 設置正確的批間隔
4.4.3 內存調優

第5章 Tachyon實踐案例與解析
5.1 Taclayon概述
5.2 重新編譯部署包
5.2.1 重新編譯Tachyon的部署包
5.2.2 重新編譯Spark的部署包
5.3 Taclayon部署的案例與解析
5.3.1 單機模式部署的案例與解析
5.3.2 集群模式部署的案例與解析
5.3.3 集群Master容錯部署的案例與解析
5.4 Taclayon配置的案例與解析
5.4.1 底層存儲系統的配置案例與解析
5.4.2 配置屬性與解析
5.5 命令行接口的案例與解析
5.5.1 命令行接口的說明
5.5.2 命令行接口的案例實踐與解析
5.6 同步底層文件系統的案例與解析
5.6.1 同步HDFS底層文件系統的案例與解析
5.6.2 同步本地底層文件系統的案例與解析
5.7 基於Tachyon運行的案例與解析
5.7.1 基於Tachyon運行Spark的案例與解析
5.7.2 基於Tachyon運行Hadoop MR的案例與解析

附錄 Spark 1.4版本新特性
 

詳細資料

  • ISBN:9787111519096
  • 規格:332頁 / 21 x 14.8 x 1.5 cm / 普通級 / 1-1
  • 出版地:中國

最近瀏覽商品

 

相關活動

  • 【科普、飲食、電腦】高寶電子書暢銷書展:人生就是選擇的總和,全展75折起
 

購物說明

溫馨提醒您:若您訂單中有購買簡體館無庫存/預售書或庫存於海外廠商的書籍,建議與其他商品分開下單,以避免等待時間過長,謝謝。

大陸出版品書況:因裝幀品質及貨運條件未臻完善,書況與台灣出版品落差甚大,封面老舊、出現磨痕、凹痕等均屬常態,故簡體字館除封面破損、內頁脫落...等較嚴重的狀態外,其餘所有商品將正常出貨。 

 

請注意,部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

調貨時間:若您購買海外庫存之商品,於您完成訂購後,商品原則上約45個工作天內抵台(若有將延遲另行告知)。為了縮短等待的時間,建議您將簡體書與其它商品分開訂購,以利一般商品快速出貨。 

若您具有法人身份為常態性且大量購書者,或有特殊作業需求,建議您可洽詢「企業採購」。 

退換貨說明 

會員所購買的商品均享有到貨十天的猶豫期(含例假日)。退回之商品必須於猶豫期內寄回。 

辦理退換貨時,商品必須是全新狀態與完整包裝(請注意保持商品本體、配件、贈品、保證書、原廠包裝及所有附隨文件或資料的完整性,切勿缺漏任何配件或損毀原廠外盒)。退回商品無法回復原狀者,恐將影響退貨權益或需負擔部分費用。 

訂購本商品前請務必詳閱商品退換貨原則

  • 翦商作者新作79折
  • 針灸匠張寶旬
  • 浪漫小說精選3本72折