新到貨2本75折
大數據分析與挖掘

大數據分析與挖掘

  • 定價:299
  • 優惠價:87260
  • 運送方式:
  • 臺灣與離島
  • 海外
  • 可配送點:台灣、蘭嶼、綠島、澎湖、金門、馬祖
  • 可取貨點:台灣、蘭嶼、綠島、澎湖、金門、馬祖
載入中...
  • 分享
 

內容簡介

主要包括:第1章緒論、第2章資料特徵分析與預處理、第3章關聯規則挖掘、第4章分類演算法、第5章聚類演算法、第6章分散式大數據流程挖掘、第7章綜合案例——基於華為技術與設備。
 
本書可作為高等院校資料科學與大數據技術、電腦科學與技術等相關專業的本科生教材。
 

作者介紹

石勝飛,哈爾濱工業大學副教授,主要研究領域資料採擷、大資料分析。中國電腦學會資料庫專家會委員。中國電腦學會資料庫專家會委員。
 

目錄

第 1章 緒論 1
1.1 大數據分析與挖掘簡介 1
1.2 大數據應用及挑戰 2
1.3 大數據分析與挖掘主要技術 3
1.4 大數據分析與挖掘工具 4
1.4.1 Sklearn 4
1.4.2 Spark ML 5
1.4.3 華為雲的機器學習服務 5

第 2章 資料特徵分析與預處理 15
2.1 資料類型 15
2.1.1 資料集類型 15
2.1.2 資料屬性的類型 17
2.2 資料的描述性特徵 20
2.2.1 描述資料集中趨勢的度量 20
2.2.2 描述資料離中趨勢的度量 22
2.2.3 資料分佈形態的度量 24
2.2.4 資料分佈特徵的視覺化 27
2.3 資料的相關分析 30
2.3.1 相關分析 31
2.3.2 卡方(χ2)檢驗 32
2.4 數據預處理 34
2.4.1 資料變換、離散化與編碼 35
2.4.2 資料抽樣技術 40
2.4.3 主成分分析 42
2.4.4 數據清洗 49
2.5 Spark資料預處理功能簡介 52
2.5.1 二值化 52
2.5.2 分箱器 52
2.5.3 哈達瑪積變換 53
2.5.4 最大絕對值標準化 53
2.5.5 最小—最大變換 54
2.5.6 正則化 54
2.5.7 多項式擴展 55
2.5.8 標準化 55
2.5.9 特徵向量合併 56
2.5.10 類別特徵索引 57
習題 57

第3章 關聯規則挖掘 59
3.1 基本概念 59
3.2 基於候選項產生—測試策略的頻繁模式挖掘演算法 61
3.2.1 Apriori演算法 61
3.2.2 基於劃分的演算法 64
3.2.3 交易資料的存儲 65
3.3 不需要產生候選項集的頻繁模式挖掘演算法 66
3.3.1 FP-Growth演算法 66
3.3.2 Spark上FP-Growth演算法實踐 71
3.4 結合相關性分析的關聯規則 72
3.5 多層關聯規則挖掘演算法 74
3.6 序列模式挖掘 77
3.6.1 序列模式的定義 77
3.6.2 PrefixSpan演算法 78
3.6.3 與其他序列模式挖掘演算法的比較和分析 80
3.7 其他類型關聯規則簡介 81
3.7.1 量化關聯規則 82
3.7.2 時態關聯規則 82
3.7.3 局部化的關聯規則 82
3.7.4 優化的關聯規則 82
習題 83

第4章 分類與回歸演算法 85
4.1 決策樹演算法 85
4.1.1 決策樹簡介 85
4.1.2 決策樹的類型 86
4.1.3 決策樹的構造過程 86
4.1.4 資訊理論的有關概念 87
4.1.5 ID3演算法 87
4.1.6 資訊理論在ID3演算法中的應用 90
4.1.7 C4.5演算法 91
4.1.8 CART演算法 91
4.1.9 過擬合與決策樹剪枝 93
4.1.10 決策樹後剪枝策略 95
4.1.11 決策樹的生成與視覺化 103
4.1.12 幾種屬性選擇度量的對比 106
4.2 貝葉斯分類器 106
4.2.1 貝葉斯決策理論 106
4.2.2 極大似然估計 107
4.2.3 樸素貝葉斯分類器 108
4.2.4 貝葉斯網路基礎 110
4.2.5 通過貝葉斯網路判斷條件獨立 111
4.2.6 貝葉斯網路推理實例 112
4.3 基於實例的分類演算法 115
4.3.1 KNN分類器 115
4.3.2 局部加權回歸 121
4.3.3 基於案例的推理 123
4.4 組合分類演算法 130
4.4.1 Adaboost演算法 130
4.4.2 Bagging演算法 135
4.4.3 隨機森林 140
4.5 分類器演算法的評估 142
4.6 回歸分析 146
4.6.1 線性回歸 146
4.6.2 嶺回歸 149
4.6.3 多項式回歸 149
4.6.4 邏輯回歸 151
4.6.5 決策樹回歸 152
4.6.6 梯度提升決策樹 155
習題 160

第5章 聚類演算法 165
5.1 聚類分析概述 165
5.2 聚類演算法的分類 166
5.3 距離度量 166
5.3.1 冪距離 166
5.3.2 歐式距離 167
5.3.3 曼哈頓距離 167
5.3.4 切比雪夫距離 168
5.3.5 余弦相似度 168
5.3.6 蘭氏距離 169
5.3.7 馬氏距離 169
5.3.8 斜交空間距離 170
5.3.9 傑卡德距離 170
5.3.10 漢明距離 171
5.4 基於劃分的聚類演算法 172
5.4.1 K均值演算法 172
5.4.2 二分K均值聚類演算法 174
5.4.3 小批量K均值演算法 175
5.4.4 K均值++演算法 179
5.4.5 K中心點演算法 180
5.4.6 資料流程K均值演算法 181
5.5 基於密度的聚類演算法 182
5.5.1 DBSCAN演算法 182
5.5.2 OPTICS演算法 185
5.6 基於模型的聚類演算法:高斯混合模型演算法 189
5.6.1 演算法原理 189
5.6.2 GMM演算法的參數估計 190
5.6.3 GMM演算法實踐 191
5.7 層次聚類 193
5.7.1 凝聚的層次聚類演算法 193
5.7.2 聚類之間距離的度量方法 193
5.7.3 層次聚類演算法的性質 204
5.7.4 BIRCH演算法 207
5.8 基於網格的聚類演算法 211
5.8.1 STING演算法 211
5.8.2 CLIQUE演算法 213
5.9 Mean Shift聚類演算法 218
5.9.1 基本概念 218
5.9.2 Mean Shift演算法聚類過程 219
5.9.3 Mean Shift聚類演算法實踐 222
5.9.4 改進的Mean Shift演算法 223
5.10 聚類演算法評價指標 224
5.10.1 調整蘭德指數 224
5.10.2 互信息評分 225
5.10.3 同質性、完整性以及調和平均 226
5.10.4 Fowlkes-Mallows評分 228
5.10.5 輪廓係數 229
5.10.6 Calinski-Harabz 指數 229
習題 230

第6章 資料採擷綜合應用:異常檢測 232
6.1 預備知識 232
6.1.1 相關統計學概念 232
6.1.2 異常檢測評價指標 234
6.1.3 異常檢測問題的特點 234
6.1.4 異常檢測演算法分類 234
6.2 基於隔離森林的異常檢測演算法 235
6.2.1 隔離與隔離樹iTree 236
6.2.2 隔離森林的特點 238
6.2.3 隔離森林演算法 239
6.2.4 應用實例 240
6.3 局部異常因數演算法 242
6.3.1 基本定義 242
6.3.2 異常檢測 243
6.3.3 應用實例 244
6.4 基於One-Class SVM的異常檢測演算法 245
6.4.1 基本原理 245
6.4.2 應用實例 246
6.5 基於主成分分析的異常檢測演算法 247
6.6 基於集成學習的異常檢測演算法 249
6.6.1 基本原理 249
6.6.2 應用實例 250
6.7 其他有監督學習類型的檢測演算法 253
6.7.1 罕見類別檢測 254
6.7.2 基於有監督學習的異常檢測實例 256
6.7.3 異常檢測應用實例——時空異常檢測 257
6.7.4 Spark異常值檢測實例 259
6.8 習題 261

附錄 《大數據分析與挖掘》配套實驗課程方案簡介 263
參考文獻 264
 

詳細資料

  • ISBN:9787115483058
  • 規格:平裝 / 265頁 / 25.8 x 18.2 x 1.4 cm / 普通級 / 單色印刷 / 初版
  • 出版地:中國

最近瀏覽商品

 

相關活動

  • 【科普、飲食、電腦】高寶電子書暢銷書展:人生就是選擇的總和,全展75折起
 

購物說明

溫馨提醒您:若您訂單中有購買簡體館無庫存/預售書或庫存於海外廠商的書籍,建議與其他商品分開下單,以避免等待時間過長,謝謝。

大陸出版品書況:因裝幀品質及貨運條件未臻完善,書況與台灣出版品落差甚大,封面老舊、出現磨痕、凹痕等均屬常態,故簡體字館除封面破損、內頁脫落...等較嚴重的狀態外,其餘所有商品將正常出貨。 

 

請注意,部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

調貨時間:若您購買海外庫存之商品,於您完成訂購後,商品原則上約45個工作天內抵台(若有將延遲另行告知)。為了縮短等待的時間,建議您將簡體書與其它商品分開訂購,以利一般商品快速出貨。 

若您具有法人身份為常態性且大量購書者,或有特殊作業需求,建議您可洽詢「企業採購」。 

退換貨說明 

會員所購買的商品均享有到貨十天的猶豫期(含例假日)。退回之商品必須於猶豫期內寄回。 

辦理退換貨時,商品必須是全新狀態與完整包裝(請注意保持商品本體、配件、贈品、保證書、原廠包裝及所有附隨文件或資料的完整性,切勿缺漏任何配件或損毀原廠外盒)。退回商品無法回復原狀者,恐將影響退貨權益或需負擔部分費用。 

訂購本商品前請務必詳閱商品退換貨原則

  • 翦商作者新作79折
  • 針灸匠張寶旬
  • 浪漫小說精選3本72折