新到貨2本75折
Hadoop構建數據倉庫實踐

Hadoop構建數據倉庫實踐

  • 定價:534
  • 優惠價:87465
  • 運送方式:
  • 臺灣與離島
  • 海外
  • 可配送點:台灣、蘭嶼、綠島、澎湖、金門、馬祖
  • 可取貨點:台灣、蘭嶼、綠島、澎湖、金門、馬祖
載入中...
  • 分享
 

內容簡介

本書講述在流行的大數據分布式存儲和計算平台Hadoop上設計實現數據倉庫,將傳統數據倉庫建模與SQL開發的簡單性與大數據技術相結合,快速、高效地建立可擴展的數據倉庫及其應用系統。

本書內容包括數據倉庫、Hadoop及其生態圈的相關概念,使用Sqoop從關系數據庫全量或增量抽取數據,使用HIVE進行數據轉換和裝載處理,使用Oozie調度作業周期性執行,使用Impala進行快速聯機數據分析,使用Hue將數據可視化,以及數據倉庫中的漸變維(SCD)、代理鍵、角色扮演維度、層次維度、退化維度、無事實的事實表、遲到的事實、累積的度量等常見問題在Hadoop上的處理等。

本書適合數據庫管理員、大數據技術人員、Hadoop技術人員、數據倉庫技術人員,也適合高等院校和培訓機構相關專業的師生教學參考。

王雪迎,畢業於中國地質大學計算機專業,高級工程師,擁有20年數據庫、數據倉庫相關技術經驗。曾先后供職於北京現代商業信息技術有限公司、北京在線九州信息技術服務有限公司、華北計算技術研究所、北京優貝在線網絡科技有限公司,擔任DBA、數據架構師等職位。
 

目錄

第1章 數據倉庫簡介
1.1 什麼是數據倉庫 1
1.1.1 數據倉庫的定義 1
1.1.2 建立數據倉庫的原因 3
1.2 操作型系統與分析型系統 5
1.2.1 操作型系統 5
1.2.2 分析型系統 8
1.2.3 操作型系統和分析型系統對比 9
1.3 數據倉庫架構 10
1.3.1 基本架構 10
1.3.2 主要數據倉庫架構 12
1.3.3 操作數據存儲 16
1.4 抽取-轉換-裝載 17
1.4.1 數據抽取 17
1.4.2 數據轉換 19
1.4.3 數據裝載 20
1.4.4 開發ETL系統的方法 21
1.4.5 常見ETL工具 21
1.5 數據倉庫需求 22
1.5.1 基本需求 22
1.5.2 數據需求 23
1.6 小結 24

第2章 數據倉庫設計基礎
2.1 關系數據模型 25
2.1.1 關系數據模型中的結構 25
2.1.2 關系完整性 28
2.1.3 規范化 30
2.1.4 關系數據模型與數據倉庫 33
2.2 維度數據模型 34
2.2.1 維度數據模型建模過程 35
2.2.2 維度規范化 36
2.2.3 維度數據模型的特點 37
2.2.4 星型模式 38
2.2.5 雪花模式 40
2.3 Data Vault模型 42
2.3.1 Data Vault模型簡介 42
2.3.2 Data Vault模型的組成部分 43
2.3.3 Data Vault模型的特點 44
2.3.4 Data Vault模型的構建 44
2.3.5 Data Vault模型實例 46
2.4 數據集市 49
2.4.1 數據集市的概念 50
2.4.2 數據集市與數據倉庫的區別 50
2.4.3 數據集市設計 50
2.5 數據倉庫實施步驟 51
2.6 小結 54

第3章 Hadoop生態圈與數據倉庫
3.1 大數據定義 55
3.2 Hadoop簡介 56
3.2.1 Hadoop的構成 57
3.2.2 Hadoop的主要特點 58
3.2.3 Hadoop架構 58
3.3 Hadoop基本組件 59
3.3.1 HDFS 60
3.3.2 MapReduce 65
3.3.3 YARN 72
3.4 Hadoop生態圈的其他組件 77
3.5 Hadoop與數據倉庫 81
3.5.1 關系數據庫的可擴展性瓶頸 82
3.5.2 CAP理論 84
3.5.3 Hadoop數據倉庫工具 85
3.6 小結 88

第4章 安裝Hadoop
4.1 Hadoop主要發行版本 89
4.1.1 Cloudera Distribution for Hadoop(CDH) 89
4.1.2 Hortonworks Data Platform(HDP) 90
4.1.3 MapR Hadoop 90
4.2 安裝Apache Hadoop 91
4.2.1 安裝環境 91
4.2.2 安裝前准備 92
4.2.3 安裝配置Hadoop 93
4.2.4 安裝后配置 97
4.2.5 初始化及運行 97
4.3 配置HDFS Federation 99
4.4 離線安裝CDH及其所需的服務 104
4.4.1 CDH安裝概述 104
4.4.2 安裝環境 106
4.4.3 安裝配置 106
4.4.4 Cloudera Manager許可證管理 114
4.5 小結 115

第5章 Kettle與Hadoop
5.1 Kettle概述 117
5.2 Kettle連接Hadoop 119
5.2.1 連接HDFS 119
5.2.2 連接Hive 124
5.3 導出導入Hadoop集群數據 128
5.3.1 把數據從HDFS抽取到RDBMS 128
5.3.2 向Hive表導入數據 132
5.4 執行Hive的HiveQL語句 134
5.5 MapReduce轉換示例 135
5.6 Kettle提交Spark作業 143
5.6.1 安裝Spark 143
5.6.2 配置Kettle向Spark集群提交作業 146
5.7 小結 149

第6章 建立數據倉庫示例模型
6.1 業務場景 150
6.2 Hive相關配置 152
6.2.1 選擇文件格式 152
6.2.2 支持行級更新 159
6.2.3 Hive事務支持的限制 164
6.3 Hive表分類 164
6.4 向Hive表裝載數據 169
6.5 建立數據庫表 174
6.6 裝載日期維度數據 179
6.7 小結 180

第7章 數據抽取
7.1 邏輯數據映射 182
7.2 數據抽取方式 185
7.3 導出成文本文件 191
7.4 分布式查詢 196
7.5 使用Sqoop抽取數據 200
7.5.1 Sqoop簡介 200
7.5.2 CDH 5.7.0中的Sqoop 203
7.5.3 使用Sqoop抽取數據 203
7.5.4 Sqoop優化 207
7.6 小結 208

第8章 數據轉換與裝載
8.1 數據清洗 210
8.2 Hive簡介 214
8.2.1 Hive的體系結構 215
8.2.2 Hive的工作流程 216
8.2.3 Hive服務器 218
8.2.4 Hive客戶端 221
8.3 初始裝載 231
8.4 定期裝載 236
8.5 Hive優化 246
8.6 小結 254

第9章 定期自動執行ETL作業
9.1 crontab 256
9.2 Oozie簡介 260
9.2.1 Oozie的體系結構 260
9.2.2 CDH 5.7.0中的Oozie 262
9.3 建立定期裝載工作流 262
9.4 建立協調器作業定期自動執行工作流 271
9.5 Oozie優化 275
9.6 小結 276

第10章 維度表技術
10.1 增加列 278
10.2 維度子集 285
10.3 角色扮演維度 292
10.4 層次維度 298
10.4.1 固定深度的層次 299
10.4.2 遞歸 302
10.4.3 多路徑層次 310
10.4.4 參差不齊的層次 312
10.5 退化維度 313
10.6 雜項維度 316
10.7 維度合並 323
10.8 分段維度 329
10.9 小結 335

第11章 事實表技術
11.1 事實表概述 336
11.2 周期快照 337
11.3 累積快照 343
11.4 無事實的事實表 349
11.5 遲到的事實 354
11.6 累積度量 360
11.7 小結 366

第12章 聯機分析處理
12.1 聯機分析處理簡介 367
12.1.1 概念 367
12.1.2 分類 368
12.1.3 性能 371
12.2 Impala簡介 371
12.3 Hive、SparkSQL、Impala比較 377
12.3.1 Spark SQL簡介 377
12.3.2 Hive、Spark SQL、Impala比較 379
12.3.3 Hive、Spark SQL、Impala性能對比 382
12.4 聯機分析處理實例 387
12.5 Apache Kylin與OLAP 399
12.5.1 Apache Kylin架構 399
12.5.2 Apache Kylin安裝 401
12.6 小結 407

第13章 數據可視化
13.1 數據可視化簡介 408
13.2 Hue簡介 410
13.2.1 Hue功能快速預覽 411
13.2.2 配置元數據存儲 412
13.3 Zeppelin簡介 415
13.3.1 Zeppelin架構 415
13.3.2 Zeppelin安裝配置 416
13.3.3 在Zeppelin中添加MySQL翻譯器 421
13.4 Hue、Zeppelin比較 425
13.5 數據可視化實例 426
13.6 小結 434
 

詳細資料

  • ISBN:9787302469803
  • 規格:434頁 / 30 x 25 x 1 cm / 普通級 / 1-1
  • 出版地:中國

最近瀏覽商品

 

相關活動

  • 【其他】2024采實電子書全書系:春暖花開‧享閱讀,參展書單書85折起、任選3本79折
 

購物說明

溫馨提醒您:若您訂單中有購買簡體館無庫存/預售書或庫存於海外廠商的書籍,建議與其他商品分開下單,以避免等待時間過長,謝謝。

大陸出版品書況:因裝幀品質及貨運條件未臻完善,書況與台灣出版品落差甚大,封面老舊、出現磨痕、凹痕等均屬常態,故簡體字館除封面破損、內頁脫落...等較嚴重的狀態外,其餘所有商品將正常出貨。 

 

請注意,部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

調貨時間:若您購買海外庫存之商品,於您完成訂購後,商品原則上約45個工作天內抵台(若有將延遲另行告知)。為了縮短等待的時間,建議您將簡體書與其它商品分開訂購,以利一般商品快速出貨。 

若您具有法人身份為常態性且大量購書者,或有特殊作業需求,建議您可洽詢「企業採購」。 

退換貨說明 

會員所購買的商品均享有到貨十天的猶豫期(含例假日)。退回之商品必須於猶豫期內寄回。 

辦理退換貨時,商品必須是全新狀態與完整包裝(請注意保持商品本體、配件、贈品、保證書、原廠包裝及所有附隨文件或資料的完整性,切勿缺漏任何配件或損毀原廠外盒)。退回商品無法回復原狀者,恐將影響退貨權益或需負擔部分費用。 

訂購本商品前請務必詳閱商品退換貨原則

  • 針灸匠張寶旬
  • 手作新書79折起
  • 浪漫小說精選3本72折