內容簡介

本書基於Python語言環境，從零開始講解資料科學工作，講述資料科學工作所需的技能與訣竅，並帶領讀者熟悉資料科學的核心知識：數學與統計學。作者借助大量具有現實意義的實例詳細展示了什麼是資料科學，介紹了從事資料科學工作需要用到的庫，如NumPy、scikit-learn、pandas等，還在每章末尾推薦了很多學習資源，幫助你進一步鞏固本書所學。新版基於Python 3.6，重寫了所有示例和代碼，並根據資料科學近幾年的發展，新增了關於深度學習、統計學和自然語言處理等主題，讓圖書內容與時俱進。

作者介紹

喬爾·格魯斯（Joel Grus）
Capital Group公司的首席機器學習工程師，擔任過艾倫研究所的人工智慧研發工程師以及谷歌公司的軟體工程師，還曾在多家創業公司擔任資料科學家。

譯者簡介

嶽冰
美國西北大學數學碩士，知乎專欄“X-Lab”編輯，參與編撰了《知識圖譜標準化白皮書（2019版）》。深耕圖神經網路、推薦演算法、複雜關係網絡風險挖掘、機器學習等領域。運用人工智慧演算法與工具，長期支援有關部門用高精尖技術手段打擊違法犯罪。

高蓉
講師，任教於杭州電子科技大學經濟學院金融系。博士和碩士畢業于南開大學經濟學院金融系，本科畢業于南開大學數學學院計算數學專業。研究領域包括資料科學應用、資產定價、金融工程、計量經濟應用等。

韓波
自由譯者、撰稿人，從事資訊技術工作二十餘年，主要興趣領域為機器學習、Python等。曾為多家資訊技術媒體撰稿，另譯有《Python資料分析》。

第 2版前言　xiii
第1版前言 xvii
第1章導論　1
1．1　數據的崛起　1
1．2　什麼是資料科學　1
1．3　激勵假設：Data Sciencester　2
1．3．1　尋找關鍵連絡人　3
1．3．2　你可能知道的資料科學家　5
1．3．3　工資和工作年限　8
1．3．4　付費帳戶　10
1．3．5　感興趣的主題　10
1．3．6　展望　12

第2章 Python速成　13
2．1　Python之禪　13
2．2　獲取Python　14
2．3　虛擬環境　14
2．4　空白格式　15
2．5　模組　16
2．6　函數　17
2．7　字串　18
2．8　異常　19
2．9　列表　19
2．10　元組　21
2．11　字典　22
2．12　計數器　24
2．13　集　24
2．14　控制流　25
2．15　真和假　26
2．16　排序　27
2．17　列表解析　27
2．18　自動化測試和斷言　28
2．19　物件導向程式設計　29
2．20　反覆運算器和生成器　31
2．21　隨機性．．32
2．22　規則運算式　33
2．23　函數式程式設計　34
2．24　壓縮和參數拆分　34
2．25　args和kwargs　35
2．26　類型注釋　36
2．27　歡迎來到DataSciencester　39
2．28　進一步探索　39

第3章　數據視覺化　40
3．1　matplotlib　40
3．2　橫條圖　42
3．3　線圖　45
3．4　散點圖　46
3．5　延伸學習　48

第4章　線性代數　49
4．1　向量　49
4．2　矩陣　53
4．3　延伸學習　56

第5章　統計學　57
5．1　描述單個資料集　57
5．1．1　中心傾向　59
5．1．2　離散度　61
5．2　相關　62
5．3　辛普森悖論　64
5．4　相關係數的其他注意事項　65
5．5　相關與因果　66
5．6　延伸學習　66

第6章　概率　68
6．1　依賴和獨立　68
6．2　條件概率　69
6．3　貝葉斯定理　71
6．4　隨機變數　72
6．5　連續分佈　72
6．6　正態分佈　73
6．7　中心極限定理　76
6．8　延伸學習　78

第7章　假設和推論　79
7．1　統計假設檢驗　79
7．2　實例：擲硬幣　79
7．3　p值　82
7．4　置信區間　84
7．5　p-Hacking　84
7．6　實例：運行A/B 測試　85
7．7　貝葉斯推斷　86
7．8　延伸學習　89

第8章　梯度下降　90
8．1　梯度下降的思想　90
8．2　估算梯度　91
8．3　使用梯度　94
8．4　選擇正確步長　94
8．5　使用梯度下降擬合模型　95
8．6　小批次梯度下降和隨機梯度下降　96
8．7　延伸學習　98

第9章　獲取資料　99
9．1　stdin和stdout　99
9．2　讀取文件　101
9．2．1　文字檔的基礎　101
9．2．2　限制的檔　102
9．3　網路抓取　104
9．4　使用API　106
9．4．1　JSON和XML　106
9．4．2　使用無驗證的API　107
9．4．3　尋找API　108
9．5　實例：使用Twitter API　109
9．6　延伸學習　112

第10章資料工作　113
10．1　探索資料　113
10．1．1　探索一維資料　113
10．1．2　兩個維度　115
10．1．3　多維數據　116
10．2　使用NamedTuple　18
10．3　數據類　119
10．4　清洗和修改　120
10．5　資料處理　122
10．6　資料調整　25
10．7　題外話：tqdm　126
10．8　降維　127
10．9　延伸學習　133

第11章機器學習　134
11．1　建模　134
11．2　什麼是機器學習　135
11．3　過擬合與欠擬合　135
11．4　正確性　138
11．5　偏差–方差權衡　140
11．6　特徵提取與選擇　141
11．7　延伸學習　142

第12章 k最近鄰法　143
12．1　模型　143
12．2　實例：鳶尾花資料集　145
12．3　維數災難　148
12．4　進一步探索　152

第13章樸素貝葉斯演算法　153
13．1　一個簡易的垃圾郵件篩檢程式　153
13．2　一個複雜的垃圾郵件篩檢程式　154
13．3　演算法實現　155
13．4　測試模型　157
13．5　使用模型　158
13．6　延伸學習　161

第14章簡單線性回歸　162
14．1　模型　162
14．2　使用梯度下降法　165
14．3　最大似然估計　166
14．4　延伸學習　166

第15章多元回歸　167
15．1　模型　167
15．2　最小二乘模型的進一步假設　168
15．3　擬合模型　169
15．4　解釋模型　171
15．5　擬合優度　171
15．6　題外話：Bootstrap　172
15．7　回歸係數的標準誤差　173
15．8　正則化　175
15．9　延伸學習　177

第16章邏輯回歸　178
16．1　問題　178
16．2　logistic函數　180
16．3　應用模型　183
16．4　擬合優度　184
16．5　支持向量機　185
16．6　延伸學習　188

第17章決策樹　89
17．1　什麼是決策樹　189
17．2　熵　191
17．3　分割的熵　193
17．4　創建決策樹　194
17．5　綜合運用　196
17．6　隨機森林　199
17．7　延伸學習　199

第18章神經網路　200
18．1　感知器　200
18．2　前饋神經網路　202
18．3　反向傳播　205
18．4　實例：Fizz Buzz　207
18．5　延伸學習　210

第19章深度學習　211
19．1　張量　211
19．2　層抽象　213
19．3　線性層　215
19．4　把神經網路作為層序列　218
19．5　損失函數與優化器　219
19．6　實例：重新設計異或網路　221
19．7　其他啟動函數　222
19．8　實例：重新解決Fizz Buzz問題　223
19．9　softmax函數和交叉熵　224
19．10　丟棄　227
19．11　實例：MNIST　227
19．12　保存和載入模型　231
19．13　延伸學習　232

第20章聚類分析　233
20．1　原理　233
20．2　模型　234
20．3　實例：聚會　236
20．4　選擇聚類數目k　238
20．5　實例：色彩聚類　239
20．6　自下而上的分層聚類　241
20．7　延伸學習　246

第21章自然語言處理　247
21．1　詞雲　247
21．2　n-gram 語言模型　249
21．3　語法　252
21．4　題外話：吉布斯採樣　254
21．5　主題建模　255
21．6　詞向量　260
21．7　遞迴神經網路　268
21．8　實例：使用字元級RNN　271
21．9　延伸學習　274

第22章網路分析　275
22．1　仲介中心性　275
22．2　特徵向量中心性　280
22．2．1　矩陣乘法　280
22．2．2　中心性　282
22．3　有向圖與PageRank　283
22．4　延伸學習　286

第23章推薦系統　287
23．1　人工管理　288
23．2　推薦流行事務　288
23．3　基於用戶的協同過濾　289
23．4　基於項目的協同過濾　292
23．5　矩陣分解　294
23．6　延伸學習　298

第24章資料庫與SQL　299
24．1　CREATE TABLE與INSERT　299
24．2　UPDATE　302
24．3　DELETE　303
24．4　SELECT　304
24．5　GROUP BY　306
24．6　ORDER BY　308
24．7　JOIN　309
24．8　子查詢　311
24．9　索引　312
24．10　查詢優化　312
24．11　NoSQL　313
24．12　延伸學習　313

第25章 MapReduce　314
25．1　實例：單詞計數　315
25．2　為什麼是MapReduce　316
25．3　更一般化的MapReduce　317
25．4　實例：狀態分析更新　318
25．5　實例：矩陣乘法　320
25．6　題外話：組合器　321
25．7　延伸學習　322

第26章數據倫理　323
26．1　什麼是數據倫理　323
26．2　講真的，什麼是數據倫理　324
26．3　是否應該關注資料倫理　324
26．4　建立不良資料產品　325
26．5　精確與公平之間的較量　325
26．6　合作　327
26．7　可解釋性　327
26．8　推薦　327
26．9　異常數據　328
26．10　資料保護　329
26．11　小結　329
26．12　延伸學習　329

第27章資料科學前瞻　330
27．1　IPython　330
27．2　數學　331
27．3　不從零開始　331
27．3．1　NumPy　331
27．3．2　pandas　331
27．3．3　scikit-learn　331
27．3．4　視覺化　332
27．3．5　R　332
27．3．6　深度學習　332
27．4　尋找資料　333
27．5　從事資料科學工作　333
27．5．1　Hacker News　333
27．5．2　消防車　333
27．5．3　T恤　334
27．5．4　地球儀上的推文　334
27．5．5　你的發現　335
關於作者　336
關於封面　336

看更多