新到貨2本75折
ODPS權威指南:阿里大數據平台應用開發實踐

ODPS權威指南:阿里大數據平台應用開發實踐

  • 定價:414
  • 優惠價:87360
  • 運送方式:
  • 臺灣與離島
  • 海外
  • 可配送點:台灣、蘭嶼、綠島、澎湖、金門、馬祖
  • 可取貨點:台灣、蘭嶼、綠島、澎湖、金門、馬祖
載入中...
  • 分享
 

內容簡介

ODPS(Open Data Processing Service)是阿里巴巴自主研發的海量數據處理和分析的服務平台,主要應用於數據分析、海量數據統計、數據挖掘、機器學習和商業智能等領域。目前,ODPS不僅在阿里內部得到廣泛應用,享有很好的口碑,正逐步走向第三方開放市場。

《ODPS權威指南 阿里大數據平台應用開發實踐》是學習和掌握ODPS的權威指南,作者來自阿里ODPS團隊。全書共13章,主要內容包括:ODPS入門、整體架構、數據通道、MapReduce編程、SQL查詢分析、安全,以及基於真實數據的各種場景分析實戰。本書基於很多范例解析,通過在各種應用場景下的示例來說明如何通過ODPS完成各種需求,以期引導讀者從零開始輕松掌握和使用ODPS。

《ODPS權威指南 阿里大數據平台應用開發實踐》適合想要了解和使用ODPS的讀者閱讀學習,對於從事大數據存儲和應用以及分布式計算的專業人士來說,也是很好的參考資料。
 

目錄

前言 7
第1章 ODPS概述 9
1.1 引言 9
1.2 初識ODPS 9
1.2.1 背景和挑戰 9
1.2.2 為什麼做ODPS 10
1.2.3 ODPS是什麼 10
1.2.4 ODPS做什麼 11
1.3 基本概念 11
1.3.1 賬號(Account) 12
1.3.2 項目空間(Project) 13
1.3.3 表(Table) 13
1.3.4 分區(Partition) 14
1.3.5 任務(Task)、作業(Job)和作業實例(Instance) 14
1.3.6 資源(Resource) 14
1.4 應用開發模式 15
1.4.1 RESTful API 15
1.4.2 ODPS SDK 18
1.4.3 ODPS CLT 18
1.4.4 管理控制台 18
1.4.5 IDE 18
1.5 一些典型場景 19
1.5.1 阿里金融數據倉庫 19
1.5.2 ZZ數據倉庫 19
1.5.3 支付寶賬號影響力圈 19
1.5.4 阿里金融水文衍生算法 19
1.5.5 阿里媽媽廣告CTR預估 20
1.6 現狀和前景 20
1.7 小結 21

第2章 ODPS入門 22
2.1 准備工作 22
2.1.1 創建雲賬號 22
2.1.2 開通ODPS服務 24
2.2 使用管理控制台 24
2.3 配置ODPS客戶端 26
2.3.1 下載和配置CLT 26
2.3.2 准備dual表 28
2.3.3 CLT運行模式 30
2.3.4 下載和配置dship 30
2.3.5 通過dship上傳下載數據 31
2.4 網站日志分析實例 32
2.4.1 場景和數據說明 32
2.4.2 需求分析 33
2.4.3 數據准備 33
2.4.4 創建表並添加分區 34
2.4.5 數據解析和導入 35
2.4.6 數據加工 39
2.4.7 數據分析 43
2.4.8 自動化運行 47
2.4.9 應用數據集市 49
2.4.10 結果導出 51
2.4.11 結果展現 51
2.4.12 刪除數據 53
2.5 小結 53

第3章 收集海量數據 54
3.1 DSHIP工具 54
3.2 收集WEB日志 56
3.2.1 場景和需求說明 56
3.2.2 問題分析和設計 56
3.2.3 實現說明 57
3.2.4 進一步探討 59
3.2.5 為什麼這麼難 61
3.3 MYSQL數據同步到ODPS 61
3.3.1 場景和需求說明 61
3.3.2 問題分析和實現 61
3.3.3 進一步探討 63
3.4 下載結果表 63
3.5 小結 63

第4章 使用SQL處理海量數據 64
4.1 ODPS SQL是什麼 64
4.2 入門示例 64
4.2.1 場景說明 64
4.2.2 簡單的DDL操作 64
4.2.3 生成數據 68
4.2.4 單表查詢 69
4.2.5 多表連接JOIN 71
4.2.6 高級查詢 79
4.2.7 多表關聯UNION ALL 87
4.2.8 多路輸出(MULTI-INSERT) 88
4.3 網站日志分析 88
4.3.1 准備數據和表 89
4.3.2 維度表 89
4.3.3 訪問路徑分析 96
4.3.4 TopK查詢 97
4.3.5 IP黑名單 98
4.4 品牌預測 103
4.4.1 主題說明和前期准備 103
4.4.2 理解數據 104
4.4.3 兩個簡單的實踐 106
4.4.4 問題分析和算法設計 108
4.4.5 生成特征 109
4.4.6 抽取正負樣本 111
4.4.7 生成模型 114
4.4.8 驗證模型 115
4.4.9 預測結果 118
4.4.10 進一步探討 118
4.5 小結 118

第5章 SQL進階 120
5.1 UDF是什麼 120
5.2 入門示例 120
5.3 實際應用案例 122
5.3.1 URL解碼 122
5.3.2 簡單的LBS應用 123
5.3.3 網站訪問日志UserAgent解析 125
5.4 SQL實現原理 129
5.4.1 詞法分析 130
5.4.2 語法分析 130
5.4.3 邏輯分析 130
5.4.4 物理分析 136
5.5 SQL調優 137
5.5.1 數據傾斜 137
5.5.2 一些優化建議 140
5.5.3 一些注意事項 141
5.6 小結 141

第6章 通過TUNNEL遷移數據 142
6.1 ODPS TUNNEL 是什麼 142
6.2 入門示例 142
6.2.1 下載和配置 142
6.2.2 准備數據 142
6.2.3 上傳數據 143
6.2.4 下載數據 148
6.3 TUNNEL原理 149
6.3.1 數據如何傳輸 149
6.3.2 客戶端和服務端如何交互 150
6.3.3 如何實現高並發 151
6.4 從HADOOP遷移到ODPS 151
6.4.1 問題分析 151
6.4.2 客戶端實現和分析 152
6.4.3 Mapper實現和分析 155
6.4.4 編譯和運行 157
6.4.5 進一步探討 159
6.5 一些注意點 159
6.6 小結 160

第7章 使用MAPREDUCE處理數據 161
7.1 MAPREDUCE編程模型 161
7.2 MAPREDUCE應用場景 163
7.3 初識ODPS MAPREDUCE 164
7.4 入門示例 165
7.4.1 准備工作 165
7.4.2 問題分析 165
7.4.3 代碼實現和分析 166
7.4.4 運行和輸出分析 169
7.4.5 擴展:使用Combiner? 171
7.5 TOPK查詢 173
7.5.1 場景和數據說明 174
7.5.2 問題分析 174
7.5.3 具體實現分析 175
7.5.4 運行和結果輸出 179
7.5.5 擴展:忽略Stop Words 180
7.5.6 擴展:數據和任務統計 182
7.5.7 擴展: MR2模型 184
7.6 SQL和MAPREDUCE,用哪個? 186
7.7 小結 186

第8章 MAPREDUCE進階 187
8.1 再談SHUFFLE & SORT 187
8.2 好友推薦 188
8.2.1 場景和數據說明 188
8.2.2 問題定義和分析 189
8.2.3 代碼實現 190
8.3 LBS應用探討:周邊定位 193
8.3.1 場景和數據說明 193
8.3.2 問題定義和分析 194
8.3.3 代碼實現和分析 195
8.3.4 運行和測試 199
8.4 MAPREDUCE調試 200
8.4.1 帶bug的代碼 200
8.4.2 通過本地模式調試 201
8.4.3 通過Counter調試 201
8.4.4 通過log調試 202
8.5 一些注意點 203
8.6 小結 204

第9章 機器學習算法 205
9.1 初識ODPS算法 205
9.2 入門示例 205
9.2.1 通過CLT統計分析 205
9.2.2 通過XLab統計分析 207
9.3 幾個經典的算法 209
9.3.1 邏輯回歸 209
9.3.2 隨機森林 210
9.4 品牌預測 211
9.4.1 邏輯回歸 211
9.4.2 隨機森林 218
9.4.3 腳本實現和自動化 228
9.4.4 進一步探討 231
9.5 小結 232

第10章 使用SDK訪問ODPS服務 233
10.1 主要的PACKAGE和接口 233
10.1.1 主要的Package 233
10.1.2 核心接口 233
10.2 入門示例 233
10.3 基於ECLIPSE插件開發 235
10.4 小結 236

第11章 ODPS賬號、資源和數據管理 237
11.1 權限管理 237
11.1.1 賬號授權 237
11.1.2 角色(Role)授權 240
11.1.3 ACL授權特點 241
11.1.4 簡單的Policy授權 242
11.1.5 Role Policy 243
11.1.6 ACL授權和Policy授權小結 245
11.2 資源管理 245
11.2.1 Project內的資源管理 246
11.2.2 跨Project的資源共享 246
11.3 數據管理 247
11.3.1 表生命周期 248
11.3.2 數據歸並(Merge) 249
11.3.3 數據保護(Project Protection) 249
11.4 小結 251

第12章 深入了解ODPS 253
12.1 體系架構 253
12.1.1 客戶端 254
12.1.2 接入層 254
12.1.3 邏輯層 254
12.1.4 存儲/計算層 255
12.2 執行流程 256
12.2.1 提交作業 256
12.2.2 運行作業 256
12.2.3 查詢作業狀態 256
12.2.4 執行邏輯圖 256
12.3 底層數據存儲 257
12.3.1 CFILE是什麼 257
12.3.2 CFILE邏輯結構 257
12.4 內聚式框架 258
12.4.1 元數據 258
12.4.2 運維管理 258
12.4.3 多控制集群和多計算集群 259
12.5 跨集群復制 260
12.5.1 數據遷移 260
12.5.2 跨集群同步 261
12.6 小結 264

第13章 探索ODPS之美 265
13.1 R語言數據探索 265
13.1.1 安裝和配置 265
13.1.2 一些基本操作 265
13.1.3 分析建模 265
13.2 實時流計算 267
13.3 圖計算模型 268
13.4 准實時SQL 269
13.5 機器學習平台 270
附錄一 ODPS消息認證機制 271
后記 274
 

詳細資料

  • ISBN:9787115372413
  • 規格:342頁 / 21 x 14.8 x 1.5 cm / 普通級 / 1-1
  • 出版地:中國

最近瀏覽商品

 

相關活動

  • 以學術為錨,定位深度思考邏輯。文學│史地│社科 精選3本72折
 

購物說明

溫馨提醒您:若您訂單中有購買簡體館無庫存/預售書或庫存於海外廠商的書籍,建議與其他商品分開下單,以避免等待時間過長,謝謝。

大陸出版品書況:因裝幀品質及貨運條件未臻完善,書況與台灣出版品落差甚大,封面老舊、出現磨痕、凹痕等均屬常態,故簡體字館除封面破損、內頁脫落...等較嚴重的狀態外,其餘所有商品將正常出貨。 

 

請注意,部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

調貨時間:若您購買海外庫存之商品,於您完成訂購後,商品原則上約45個工作天內抵台(若有將延遲另行告知)。為了縮短等待的時間,建議您將簡體書與其它商品分開訂購,以利一般商品快速出貨。 

若您具有法人身份為常態性且大量購書者,或有特殊作業需求,建議您可洽詢「企業採購」。 

退換貨說明 

會員所購買的商品均享有到貨十天的猶豫期(含例假日)。退回之商品必須於猶豫期內寄回。 

辦理退換貨時,商品必須是全新狀態與完整包裝(請注意保持商品本體、配件、贈品、保證書、原廠包裝及所有附隨文件或資料的完整性,切勿缺漏任何配件或損毀原廠外盒)。退回商品無法回復原狀者,恐將影響退貨權益或需負擔部分費用。 

訂購本商品前請務必詳閱商品退換貨原則

  • 888現折88
  • 分寸與好運
  • 終結氣候危機