第 1 章引言 . . . . . . . . . 1
1.1 本書面向的讀者 . . . . . . . . . . . . . . . . . . . .7
1.2 深度學習的歷史趨勢 . . . . . . . . . . . . . . . 8
1.2.1 神經網絡的眾多名稱和命運變遷 . 8
1.2.2 與日俱增的數據量 . . . . . . . . . . . . . 12
1.2.3 與日俱增的模型規模 . . . . . . . . . . .13
1.2.4 與日俱增的精度、復雜度和對現實世界的沖擊. . . . . . . 15

第 1 部分應用數學與機器學習基礎
第 2 章線性代數 . . . 19
2.1 標量、向量、矩陣和張量 . . . . . . . . . . 19
2.2 矩陣和向量相乘. . . . . . . . . . . . . . . . . . .21
2.3 單位矩陣和逆矩陣 . . . . . . . . . . . . . . . . 22
2.4 線性相關和生成子空間 . . . . . . . . . . . 23
2.5 范數. . . . . . . . .24
2.6 特殊類型的矩陣和向量 . . . . . . . . . . . 25
2.7 特征分解 . . . . 26
2.8 奇異值分解 . . . . . . . . . . . . . . . . . . . . . . . 28
2.9 Moore-Penrose 偽逆 . . . . . . . . . . . . . . . 28
2.10 跡運算 . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.11 行列式 . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.12 實例：主成分分析. . . . . . . . . . . . . . . .30
第 3 章概率與信息論. . . . . . . . . . . . . . . . . . . . .34
3.1 為什麼要使用概率 . . . . . . . . . . . . . . . . 34
3.2 隨機變量 . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3 概率分布 . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.3.1 離散型變量和概率質量函數 . . . . 36
3.3.2 連續型變量和概率密度函數 . . . . 36
3.4 邊緣概率 . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.5 條件概率 . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.6 條件概率的鏈式法則 . . . . . . . . . . . . . . 38
3.7 獨立性和條件獨立性 . . . . . . . . . . . . . . 38
3.8 期望、方差和協方差 . . . . . . . . . . . . . . 38
3.9 常用概率分布 . . . . . . . . . . . . . . . . . . . . . 39
3.9.1 Bernoulli 分布 . . . . . . . . . . . . . . . . 40
3.9.2 Multinoulli 分布 . . . . . . . . . . . . . . 40
3.9.3 高斯分布 . . . . . . . . . . . . . . . . . . . . . 40
3.9.4 指數分布和 Laplace 分布 . . . . . . 41
3.9.5 Dirac 分布和經驗分布 . . . . . . . . . 42
3.9.6 分布的混合 . . . . . . . . . . . . . . . . . . . 42
3.10 常用函數的有用性質. . . . . . . . . . . . .43
3.11 貝葉斯規則 . . . . . . . . . . . . . . . . . . . . . . 45
3.12 連續型變量的技術細節 . . . . . . . . . . 45
3.13 信息論 . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.14 結構化概率模型 . . . . . . . . . . . . . . . . . 49
第 4 章數值計算 . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.1 上溢和下溢 . . . . . . . . . . . . . . . . . . . . . . . 52
4.2 病態條件 . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.3 基於梯度的優化方法 . . . . . . . . . . . . . . 53
4.3.1 梯度之上：Jacobian 和 Hessian 矩陣. . . . . . . . . . 56
4.4 約束優化 . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.5 實例：線性最小二乘 . . . . . . . . . . . . . . 61
第 5 章機器學習基礎. . . . . . . . . . . . . . . . . . . . .63
5.1 學習算法 . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.1.1 任務 T . . . . . . . . . . . . . . . . . . . . . . 63
5.1.2 性能度量 P . . . . . . . . . . . . . . . . . . . 66
5.1.3 經驗 E . . . . . . . . . . . . . . . . . . . . . . . 66
5.1.4 示例：線性回歸 . . . . . . . . . . . . . . . 68
5.2 容量、過擬合和欠擬合 . . . . . . . . . . . . 70
5.2.1 沒有免費午餐定理 . . . . . . . . . . . . . 73
5.2.2 正則化 . . . . . . . . . . . . . . . . . . . . . . . 74
5.3 超參數和驗證集. . . . . . . . . . . . . . . . . . .76
5.3.1 交叉驗證 . . . . . . . . . . . . . . . . . . . . . 76
5.4 估計、偏差和方差. . . . . . . . . . . . . . . . .77
5.4.1 點估計 . . . . . . . . . . . . . . . . . . . . . . . 77
5.4.2 偏差 . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.4.3 方差和標准差 . . . . . . . . . . . . . . . . . 80
5.4.4 權衡偏差和方差以最小化均方誤差. . . . . . . . . . 81
5.4.5 一致性 . . . . . . . . . . . . . . . . . . . . . . . 82
5.5 最大似然估計 . . . . . . . . . . . . . . . . . . . . . 82
5.5.1 條件對數似然和均方誤差. . . . . . .84
5.5.2 最大似然的性質 . . . . . . . . . . . . . . . 84
5.6 貝葉斯統計 . . . . . . . . . . . . . . . . . . . . . . . 85
5.6.1 最大后驗 (MAP) 估計 . . . . . . . . . 87
5.7 監督學習算法 . . . . . . . . . . . . . . . . . . . . . 88
5.7.1 概率監督學習 . . . . . . . . . . . . . . . . . 88
5.7.2 支持向量機 . . . . . . . . . . . . . . . . . . . 88
5.7.3 其他簡單的監督學習算法. . . . . . .90
5.8 無監督學習算法. . . . . . . . . . . . . . . . . . .91
5.8.1 主成分分析 . . . . . . . . . . . . . . . . . . . 92
5.8.2 k-均值聚類 . . . . . . . . . . . . . . . . . . . .94
5.9 隨機梯度下降 . . . . . . . . . . . . . . . . . . . . . 94
5.10 構建機器學習算法 . . . . . . . . . . . . . . . 96
5.11 促使深度學習發展的挑戰 . . . . . . . . 96
5.11.1 維數災難 . . . . . . . . . . . . . . . . . . . . 97
5.11.2 局部不變性和平滑正則化 . . . . . 97
5.11.3 流形學習 . . . . . . . . . . . . . . . . . . . . 99

第 2 部分深度網絡：現代實踐
第 6 章深度前饋網絡 . . . . . . . . . . . . . . . . . . . 105
6.1 實例：學習 XOR. . . . . . . . . . . . . . . . . 107
6.2 基於梯度的學習 . . . . . . . . . . . . . . . . . 110
6.2.1 代價函數 . . . . . . . . . . . . . . . . . . . . 111
6.2.2 輸出單元 . . . . . . . . . . . . . . . . . . . . 113
6.3 隱藏單元. . . . . . . . . . . . . . . . . . . . . . . . .119
6.3.1 整流線性單元及其擴展 . . . . . . . 120
6.3.2 logistic sigmoid 與雙曲正切函數. . . . . . . . . . . . 121
6.3.3 其他隱藏單元 . . . . . . . . . . . . . . . . 122
6.4 架構設計. . . . . . . . . . . . . . . . . . . . . . . . .123
6.4.1 萬能近似性質和深度. . . . . . . . . .123
6.4.2 其他架構上的考慮 . . . . . . . . . . . .126
6.5 反向傳播和其他的微分算法. . . . . .126
6.5.1 計算圖 . . . . . . . . . . . . . . . . . . . . . . 127
6.5.2 微積分中的鏈式法則. . . . . . . . . .128
6.5.3 遞歸地使用鏈式法則來實現反向傳播 . . . . . . . . . . . . . 128
6.5.4 全連接 MLP 中的反向傳播計算. . . . . . . . . . . . . . 131
6.5.5 符號到符號的導數 . . . . . . . . . . . .131
6.5.6 一般化的反向傳播 . . . . . . . . . . . .133
6.5.7 實例：用於 MLP 訓練的反向傳播. . . . . . . . . .135
6.5.8 復雜化 . . . . . . . . . . . . . . . . . . . . . . 137
6.5.9 深度學習界以外的微分 . . . . . . . 137
6.5.10 高階微分 . . . . . . . . . . . . . . . . . . . 138
6.6 歷史小記. . . . . . . . . . . . . . . . . . . . . . . . .139
第 7 章深度學習中的正則化 . . . . . . . . . . . . 141
7.1 參數范數懲罰 . . . . . . . . . . . . . . . . . . . . 142
7.1.1 L2 參數正則化 . . . . . . . . . . . . . . . 142
7.1.2 L1 正則化 . . . . . . . . . . . . . . . . . . . 144
7.2 作為約束的范數懲罰. . . . . . . . . . . . .146
7.3 正則化和欠約束問題. . . . . . . . . . . . .147
7.4 數據集增強 . . . . . . . . . . . . . . . . . . . . . . 148
7.5 噪聲魯棒性 . . . . . . . . . . . . . . . . . . . . . . 149
7.5.1 向輸出目標注入噪聲. . . . . . . . . .150
7.6 半監督學習 . . . . . . . . . . . . . . . . . . . . . . 150
7.7 多任務學習 . . . . . . . . . . . . . . . . . . . . . . 150
7.8 提前終止. . . . . . . . . . . . . . . . . . . . . . . . .151
7.9 參數綁定和參數共享. . . . . . . . . . . . .156
7.9.1 卷積神經網絡 . . . . . . . . . . . . . . . . 156
7.10 稀疏表示. . . . . . . . . . . . . . . . . . . . . . . .157
7.11 Bagging 和其他集成方法. . . . . . . .158
7.12 Dropout . . . . . . . . . . . . . . . . . . . . . . . . .159
7.13 對抗訓練. . . . . . . . . . . . . . . . . . . . . . . .165
7.14 切面距離、正切傳播和流形正切分類器. . . . . . . . . . 167
第 8 章深度模型中的優化. . . . . . . . . . . . . . .169
8.1 學習和純優化有什麼不同 . . . . . . . . 169
8.1.1 經驗風險最小化 . . . . . . . . . . . . . . 169
8.1.2 代理損失函數和提前終止 . . . . . 170
8.1.3 批量算法和小批量算法 . . . . . . . 170
8.2 神經網絡優化中的挑戰 . . . . . . . . . . 173
8.2.1 病態 . . . . . . . . . . . . . . . . . . . . . . . . 173
8.2.2 局部極小值 . . . . . . . . . . . . . . . . . . 174
8.2.3 高原、鞍點和其他平坦區域 . . . .175
8.2.4 懸崖和梯度爆炸 . . . . . . . . . . . . . . 177
8.2.5 長期依賴 . . . . . . . . . . . . . . . . . . . . 177
8.2.6 非精確梯度 . . . . . . . . . . . . . . . . . . 178
8.2.7 局部和全局結構間的弱對應 . . . 178
8.2.8 優化的理論限制 . . . . . . . . . . . . . . 179
8.3 基本算法. . . . . . . . . . . . . . . . . . . . . . . . .180
8.3.1 隨機梯度下降 . . . . . . . . . . . . . . . . 180
8.3.2 動量 . . . . . . . . . . . . . . . . . . . . . . . . 181
8.3.3 Nesterov 動量. . . . . . . . . . . . . . . .183
8.4 參數初始化策略 . . . . . . . . . . . . . . . . . 184
8.5 自適應學習率算法 . . . . . . . . . . . . . . . 187
8.5.1 AdaGrad . . . . . . . . . . . . . . . . . . . 187
8.5.2 RMSProp . . . . . . . . . . . . . . . . . . . 188
8.5.3 Adam . . . . . . . . . . . . . . . . . . . . . . . 189
8.5.4 選擇正確的優化算法. . . . . . . . . .190
8.6 二階近似方法 . . . . . . . . . . . . . . . . . . . . 190
8.6.1 牛頓法 . . . . . . . . . . . . . . . . . . . . . . 190
8.6.2 共軛梯度 . . . . . . . . . . . . . . . . . . . . 191
8.6.3 BFGS. . . . . . . . . . . . . . . . . . . . . . . 193
8.7 優化策略和元算法 . . . . . . . . . . . . . . . 194
8.7.1 批標准化 . . . . . . . . . . . . . . . . . . . . 194
8.7.2 坐標下降 . . . . . . . . . . . . . . . . . . . . 196
8.7.3 Polyak 平均 . . . . . . . . . . . . . . . . . 197
8.7.4 監督預訓練 . . . . . . . . . . . . . . . . . . 197
8.7.5 設計有助於優化的模型 . . . . . . . 199
8.7.6 延拓法和課程學習 . . . . . . . . . . . .199
第 9 章卷積網絡 . . . . . . . . . . . . . . . . . . . . . . . . 201
9.1 卷積運算. . . . . . . . . . . . . . . . . . . . . . . . .201
9.2 動機 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
9.3 池化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
9.4 卷積與池化作為一種無限強的先驗. . . . . . . . . . . . . 210
9.5 基本卷積函數的變體. . . . . . . . . . . . .211
9.6 結構化輸出 . . . . . . . . . . . . . . . . . . . . . . 218
9.7 數據類型. . . . . . . . . . . . . . . . . . . . . . . . .219
9.8 高效的卷積算法 . . . . . . . . . . . . . . . . . 220
9.9 隨機或無監督的特征. . . . . . . . . . . . .220
9.10 卷積網絡的神經科學基礎 . . . . . . . 221
9.11 卷積網絡與深度學習的歷史 . . . . 226
第 10 章序列建模：循環和遞歸網絡 . . . . 227
10.1 展開計算圖 . . . . . . . . . . . . . . . . . . . . . 228
10.2 循環神經網絡 . . . . . . . . . . . . . . . . . . .230
10.2.1 導師驅動過程和輸出循環網絡 232
10.2.2 計算循環神經網絡的梯度 . . . . 233
10.2.3 作為有向圖模型的循環網絡 . . 235
10.2.4 基於上下文的 RNN 序列建模 237
10.3 雙向 RNN . . . . . . . . . . . . . . . . . . . . . . 239
10.4 基於編碼 - 解碼的序列到序列架構. . . . . . 240
10.5 深度循環網絡 . . . . . . . . . . . . . . . . . . .242
10.6 遞歸神經網絡 . . . . . . . . . . . . . . . . . . .243
10.7 長期依賴的挑戰 . . . . . . . . . . . . . . . . 244
10.8 回聲狀態網絡 . . . . . . . . . . . . . . . . . . .245
10.9 滲漏單元和其他多時間尺度的策略. . . . . . . . . . . 247
10.9.1 時間維度的跳躍連接. . . . . . . . .247
10.9.2 滲漏單元和一系列不同時間尺度. . . . . . . . . . . . 247
10.9.3 刪除連接 . . . . . . . . . . . . . . . . . . . 248
10.10 長短期記憶和其他門控 RNN . 248
10.10.1 LSTM . . . . . . . . . . . . . . . . . . . . 248
10.10.2 其他門控 RNN. . . . . . . . . . . . .250
10.11 優化長期依賴. . . . . . . . . . . . . . . . . .251
10.11.1 截斷梯度 . . . . . . . . . . . . . . . . . . 251
10.11.2 引導信息流的正則化 . . . . . . . 252
10.12 外顯記憶 . . . . . . . . . . . . . . . . . . . . . . 253
第 11 章實踐方法論 . . . . . . . . . . . . . . . . . . . . 256
11.1 性能度量. . . . . . . . . . . . . . . . . . . . . . . .256
11.2 默認的基准模型 . . . . . . . . . . . . . . . . 258
11.3 決定是否收集更多數據 . . . . . . . . . 259
11.4 選擇超參數 . . . . . . . . . . . . . . . . . . . . . 259
11.4.1 手動調整超參數 . . . . . . . . . . . . .259
11.4.2 自動超參數優化算法. . . . . . . . .262
11.4.3 網格搜索 . . . . . . . . . . . . . . . . . . . 262
11.4.4 隨機搜索 . . . . . . . . . . . . . . . . . . . 263
11.4.5 基於模型的超參數優化 . . . . . . 264
11.5 調試策略. . . . . . . . . . . . . . . . . . . . . . . .264
11.6 示例：多位數字識別 . . . . . . . . . . . . 267
第 12 章應用. . . . . . . . . . . . . . . . . . . . . . . . . . . .269
12.1 大規模深度學習 . . . . . . . . . . . . . . . . 269
12.1.1 快速的 CPU 實現 . . . . . . . . . . . 269
12.1.2 GPU 實現 . . . . . . . . . . . . . . . . . . 269
12.1.3 大規模的分布式實現. . . . . . . . .271
12.1.4 模型壓縮 . . . . . . . . . . . . . . . . . . . 271
12.1.5 動態結構 . . . . . . . . . . . . . . . . . . . 272
12.1.6 深度網絡的專用硬件實現 . . . . 273
12.2 計算機視覺 . . . . . . . . . . . . . . . . . . . . . 274
12.2.1 預處理 . . . . . . . . . . . . . . . . . . . . . 275
12.2.2 數據集增強 . . . . . . . . . . . . . . . . . 277
12.3 語音識別. . . . . . . . . . . . . . . . . . . . . . . .278
12.4 自然語言處理 . . . . . . . . . . . . . . . . . . .279
12.4.1 n-gram . . . . . . . . . . . . . . . . . . . . .280
12.4.2 神經語言模型 . . . . . . . . . . . . . . . 281
12.4.3 高維輸出 . . . . . . . . . . . . . . . . . . . 282
12.4.4 結合 n-gram 和神經語言模型 286
12.4.5 神經機器翻譯 . . . . . . . . . . . . . . . 287
12.4.6 歷史展望 . . . . . . . . . . . . . . . . . . . 289
12.5 其他應用. . . . . . . . . . . . . . . . . . . . . . . .290
12.5.1 推薦系統 . . . . . . . . . . . . . . . . . . . 290
12.5.2 知識表示、推理和回答 . . . . . . . 292

第 3 部分深度學習研究
第 13 章線性因子模型 . . . . . . . . . . . . . . . . . . 297
13.1 概率 PCA 和因子分析 . . . . . . . . . . 297
13.2 獨立成分分析 . . . . . . . . . . . . . . . . . . .298
13.3 慢特征分析 . . . . . . . . . . . . . . . . . . . . . 300
13.4 稀疏編碼. . . . . . . . . . . . . . . . . . . . . . . .301
13.5 PCA 的流形解釋 . . . . . . . . . . . . . . . 304
第 14 章自編碼器 . . . . . . . . . . . . . . . . . . . . . . . 306
14.1 欠完備自編碼器 . . . . . . . . . . . . . . . . 306
14.2 正則自編碼器 . . . . . . . . . . . . . . . . . . .307
14.2.1 稀疏自編碼器 . . . . . . . . . . . . . . . 307
14.2.2 去噪自編碼器 . . . . . . . . . . . . . . . 309
14.2.3 懲罰導數作為正則. . . . . . . . . . .309
14.3 表示能力、層的大小和深度 . . . . . 310
14.4 隨機編碼器和解碼器. . . . . . . . . . . .310
14.5 去噪自編碼器詳解 . . . . . . . . . . . . . . 311
14.5.1 得分估計 . . . . . . . . . . . . . . . . . . . 312
14.5.2 歷史展望 . . . . . . . . . . . . . . . . . . . 314
14.6 使用自編碼器學習流形 . . . . . . . . . 314
14.7 收縮自編碼器 . . . . . . . . . . . . . . . . . . .317
14.8 預測稀疏分解 . . . . . . . . . . . . . . . . . . .319
14.9 自編碼器的應用 . . . . . . . . . . . . . . . . 319
第 15 章表示學習 . . . . . . . . . . . . . . . . . . . . . . . 321
15.1 貪心逐層無監督預訓練 . . . . . . . . . 322
15.1.1 何時以及為何無監督預訓練有效有效. . . . . . 323
15.2 遷移學習和領域自適應 . . . . . . . . . 326
15.3 半監督解釋因果關系. . . . . . . . . . . .329
15.4 分布式表示 . . . . . . . . . . . . . . . . . . . . . 332
15.5 得益於深度的指數增益 . . . . . . . . . 336
15.6 提供發現潛在原因的線索 . . . . . . . 337
第 16 章深度學習中的結構化概率模型 . 339
16.1 非結構化建模的挑戰. . . . . . . . . . . .339
16.2 使用圖描述模型結構. . . . . . . . . . . .342
16.2.1 有向模型 . . . . . . . . . . . . . . . . . . . 342
16.2.2 無向模型 . . . . . . . . . . . . . . . . . . . 344
16.2.3 配分函數 . . . . . . . . . . . . . . . . . . . 345
16.2.4 基於能量的模型 . . . . . . . . . . . . .346
16.2.5 分離和 d-分離 . . . . . . . . . . . . . . .347
16.2.6 在有向模型和無向模型中轉換 350
16.2.7 因子圖 . . . . . . . . . . . . . . . . . . . . . 352
16.3 從圖模型中采樣 . . . . . . . . . . . . . . . . 353
16.4 結構化建模的優勢 . . . . . . . . . . . . . . 353
16.5 學習依賴關系 . . . . . . . . . . . . . . . . . . .354
16.6 推斷和近似推斷 . . . . . . . . . . . . . . . . 354
16.7 結構化概率模型的深度學習方法. . . . . . . . . . . .355
16.7.1 實例：受限玻爾茲曼機 . . . . . . . 356
第 17 章蒙特卡羅方法 . . . . . . . . . . . . . . . . . . 359
17.1 采樣和蒙特卡羅方法. . . . . . . . . . . .359
17.1.1 為什麼需要采樣 . . . . . . . . . . . . .359
17.1.2 蒙特卡羅采樣的基礎. . . . . . . . .359
17.2 重要采樣. . . . . . . . . . . . . . . . . . . . . . . .360
17.3 馬爾可夫鏈蒙特卡羅方法 . . . . . . . 362
17.4 Gibbs 采樣. . . . . . . . . . . . . . . . . . . . . .365
17.5 不同的峰值之間的混合挑戰 . . . . 365
17.5.1 不同峰值之間通過回火來混合 367
17.5.2 深度也許會有助於混合 . . . . . . 368
第 18 章直面配分函數 . . . . . . . . . . . . . . . . . . 369
18.1 對數似然梯度 . . . . . . . . . . . . . . . . . . .369
18.2 隨機最大似然和對比散度 . . . . . . . 370
18.3 偽似然 . . . . . . . . . . . . . . . . . . . . . . . . . . 375
18.4 得分匹配和比率匹配. . . . . . . . . . . .376
18.5 去噪得分匹配 . . . . . . . . . . . . . . . . . . .378
18.6 噪聲對比估計 . . . . . . . . . . . . . . . . . . .378
18.7 估計配分函數 . . . . . . . . . . . . . . . . . . .380
18.7.1 退火重要采樣 . . . . . . . . . . . . . . . 382
18.7.2 橋式采樣 . . . . . . . . . . . . . . . . . . . 384
第 19 章近似推斷 . . . . . . . . . . . . . . . . . . . . . . . 385
19.1 把推斷視作優化問題. . . . . . . . . . . .385
19.2 期望最大化 . . . . . . . . . . . . . . . . . . . . . 386
19.3 最大后驗推斷和稀疏編碼 . . . . . . . 387
19.4 變分推斷和變分學習. . . . . . . . . . . .389
19.4.1 離散型潛變量 . . . . . . . . . . . . . . . 390
19.4.2 變分法 . . . . . . . . . . . . . . . . . . . . . 394
19.4.3 連續型潛變量 . . . . . . . . . . . . . . . 396
19.4.4 學習和推斷之間的相互作用 . . 397
19.5 學成近似推斷 . . . . . . . . . . . . . . . . . . .397
19.5.1 醒眠算法 . . . . . . . . . . . . . . . . . . . 398
19.5.2 學成推斷的其他形式. . . . . . . . .398
第 20 章深度生成模型 . . . . . . . . . . . . . . . . . . 399
20.1 玻爾茲曼機 . . . . . . . . . . . . . . . . . . . . . 399
20.2 受限玻爾茲曼機 . . . . . . . . . . . . . . . . 400
20.2.1 條件分布 . . . . . . . . . . . . . . . . . . . 401
20.2.2 訓練受限玻爾茲曼機. . . . . . . . .402
20.3 深度信念網絡 . . . . . . . . . . . . . . . . . . .402
20.4 深度玻爾茲曼機 . . . . . . . . . . . . . . . . 404
20.4.1 有趣的性質 . . . . . . . . . . . . . . . . . 406
20.4.2 DBM 均勻場推斷 . . . . . . . . . . . 406
20.4.3 DBM 的參數學習 . . . . . . . . . . . 408
20.4.4 逐層預訓練 . . . . . . . . . . . . . . . . . 408
20.4.5 聯合訓練深度玻爾茲曼機 . . . . 410
20.5 實值數據上的玻爾茲曼機 . . . . . . . 413
20.5.1 Gaussian-Bernoulli RBM . . . . 413
20.5.2 條件協方差的無向模型 . . . . . . 414
20.6 卷積玻爾茲曼機 . . . . . . . . . . . . . . . . 417
20.7 用於結構化或序列輸出的玻爾茲曼機. . . . . . . . 418
20.8 其他玻爾茲曼機 . . . . . . . . . . . . . . . . 419
20.9 通過隨機操作的反向傳播 . . . . . . . 419
20.9.1 通過離散隨機操作的反向傳播 420
20.10 有向生成網絡. . . . . . . . . . . . . . . . . .422
20.10.1 sigmoid 信念網絡 . . . . . . . . . . 422
20.10.2 可微生成器網絡 . . . . . . . . . . . .423
20.10.3 變分自編碼器 . . . . . . . . . . . . . .425
20.10.4 生成式對抗網絡 . . . . . . . . . . . .427
20.10.5 生成矩匹配網絡 . . . . . . . . . . . .429
20.10.6 卷積生成網絡 . . . . . . . . . . . . . .430
20.10.7 自回歸網絡 . . . . . . . . . . . . . . . . 430
20.10.8 線性自回歸網絡 . . . . . . . . . . . .430
20.10.9 神經自回歸網絡 . . . . . . . . . . . .431
20.10.10 NADE . . . . . . . . . . . . . . . . . . . 432
20.11 從自編碼器采樣 . . . . . . . . . . . . . . . 433
20.11.1 與任意去噪自編碼器相關的馬爾可夫鏈 . . . . . . 434
20.11.2 夾合與條件采樣 . . . . . . . . . . . .434
20.11.3 回退訓練過程 . . . . . . . . . . . . . .435
20.12 生成隨機網絡. . . . . . . . . . . . . . . . . .435
20.12.1 判別性 GSN . . . . . . . . . . . . . . . 436
20.13 其他生成方案. . . . . . . . . . . . . . . . . .436
20.14 評估生成模型. . . . . . . . . . . . . . . . . .437
20.15 結論 . . . . . 438
參考文獻. . . . . . . . . . . . .439
索引 . . . . . . . . . . . . . . . . . 486

青山遮不住，畢竟東流去
深度學習這個術語自2006年被正式提出后，在最近10年得到了巨大發展。它使人工智能(AI)產生了革命性的突破，讓我們切實地領略到人工智能給人類生活帶來改變的潛力。2016年12月，MIT出版社出版了Ian Good fellow、Yoshua Bengio和Aaron Courville三位學者撰寫的《Deep Learning》一書。三位作者一直耕耘於機器學習領域的前沿，引領了深度學習的發展潮流，是深度學習眾多方法的主要貢獻者。該書正應其時，一經出版就風靡全球。

該書包括3個部分，第1部分介紹基本的數學工具和機器學習的概念，它們是深度學習的預備知識。第2部分系統深入地講解現今已成熟的深度學習方法和技術。第3部分討論某些具有前瞻性的方向和想法，它們被公認為是深度學習未來的研究重點。因此，該書適用於不同層次的讀者。我本人在閱讀該書時受到啟發良多，大有裨益，並采用該書作為教材在北京大學講授深度學習課程。

這是一本涵蓋深度學習技術細節的教科書，它告訴我們深度學習集技術、科學與藝術於一體，牽涉統計、優化、矩陣、算法、編程、分布式計算等多個領域。書中同時也蘊含了作者對深度學習的理解和思考，處處閃爍着深刻的思想，耐人回味。第1章關於深度學習的思想、歷史發展等論述尤為透徹而精辟。

作者在書中寫到：「人工智能的真正挑戰在於解決那些對人來說很容易執行、但很難形式化描述的任務，比如識別人們所說的話或圖像中的臉。對於這些問題，我們人類往往可以憑直覺輕易地解決」。為了應對這些挑戰，他們提出讓計算機從經驗中學習，並根據層次化的概念體系來理解世界，而每個概念通過與某些相對簡單的概念之間的關系來定義。由此，作者給出了深度學習的定義：「層次化的概念讓計算機構建較簡單的概念來學習復雜概念。如果繪制出表示這些概念如何建立在彼此之上的一幅圖，我們將得到一張『深』(層次很多)的圖。由此，我們稱這種方法為AI深度學習(deeplearning)」。

作者指出：「一般認為，到目前為止深度學習已經經歷了三次發展浪潮：20世紀40年代到60年代深度學習的雛形出現在控制論(cybernetics)中，20世紀80年代到90年代深度學習以聯結主義(connectionism)為代表，而從2006年開始，以深度學習之名復興」。

談到深度學習與腦科學或者神經科學的關系，作者強調：「如今神經科學在深度學習研究中的作用被削弱，主要原因是我們根本沒有足夠的關於大腦的信息作為指導去使用它。要獲得對被大腦實際使用算法的深刻理解，我們需要有能力同時監測(至少是)數千相連神經元的活動。我們不能夠做到這一點，所以我們甚至連大腦最簡單、最深入研究的部分都還遠遠沒有理解」。值得注意的是，我國有些專家熱衷倡導人工智能與腦科學或認知學科的交叉研究，推動國家在所謂的「類腦智能」等領域投入大量資源。且不論我國是否真有同時精通人工智能和腦科學或認知心理學的學者，至少對交叉領域，我們都應該懷着務實、理性的求是態度。唯有如此，我們才有可能在這一波人工智能發展浪潮中有所作為，而不是又成為一群觀潮人。

作者進一步指出：「媒體報道經常強調深度學習與大腦的相似性。的確，深度學習研究者比其他機器學習領域(如核方法或貝葉斯統計)的研究者更可能地引用大腦作為參考，但大家不應該認為深度學習在嘗試模擬大腦。現代深度學習從許多領域獲取靈感，特別是應用數學的基本內容如線性代數、概率論、信息論和數值優化。盡管一些深度學習的研究人員引用神經科學作為重要的靈感來源，然而其他學者完全不關心神經科學」。的確，對於廣大青年學者和一線的工程師來說，我們是可以完全不用因為不懂神經(或腦)科學而對深度學習、人工智能躑躅不前。數學模型、計算方法和應用驅動才是我們研究人工智能的可行之道。深度學習和人工智能不是飄懸在我們頭頂的框架，而是立足於我們腳下的技術。我們誠然可以從哲學層面或角度來欣賞科學與技術，但過度地從哲學層面來研究科學問題只會導致一些空洞的名詞。

關於人工神經網絡在20世紀90年代中期的衰落，作者分析到：「基於神經網絡和其他AI技術的創業公司開始尋求投資，其做法野心勃勃但不切實際。當AI研究不能實現這些不合理的期望時，投資者感到失望。同時，機器學習的其他領域取得了進步。比如，核方法和圖模型都在很多重要任務上實現了很好的效果。這兩個因素導致了神經網絡熱潮的第二次衰退，並一直持續到2007年」。「其興也悖焉，其亡也忽焉」。這個教訓也同樣值得當今基於深度學習的創業界、工業界和學術界等警醒。

我非常榮幸獲得人民郵電出版社王峰松先生的邀請來負責該書的中文翻譯。我是2016年7月收到王先生的邀請，但那時我正忙於找工作，無暇顧及。然而，當我和我的學生討論翻譯事宜時，他們一致認為這是一件非常有意義的事情，表達願意來承擔。譯稿是由我的四位學生趙申劍、黎彧君、符天凡和李凱獨立完成的。申劍和天凡是二年級的碩士生，而李凱和彧君則分別是二年級和三年級的直博生。雖然他們在機器學習領域都還是新人，其知識結構還不全面，但是他們熱情高漲、勤於學習、工作專注、執行力極強。他們通過重現書中的算法代碼和閱讀相關文獻來加強理解，在不到三個月的時間就拿出了譯着的初稿，之后又經過自校對、交叉校對等環節力圖使譯着保持正確性和一致性。他們自我協調、主動攬責、相互謙讓，他們的責任心和獨立工作能力讓我倍感欣慰，因而得以從容。

由於我們無論是中文還是英文能力都深感有限，譯文恐怕還是有些生硬，我們特別擔心未能完整地傳達出原作者的真實思想和觀點。因此，我們強烈地建議有條件的讀者去閱讀英文原著，也非常期待大家繼續指正譯着，以便今后進一步修訂完善。我懇請大家多給予4位譯者以鼓勵。請把你們對譯着的批評留給我，這是我作為他們的導師必須要承擔的，也是我對王峰松先生的信任做出的承諾。

當初譯稿基本完成時，我們決定把它公開在GitHub上，希望通過廣大讀者的參與來完善譯稿。令人驚喜的是，有上百位熱心讀者給予了大量富有建設性的修改意見，其中有20多位熱心讀者直接幫助潤色校對(詳見中文版致謝名單)。可以說，這本譯着是大家共同努力的結晶。這些讀者來自一線的工程師和在校的學生，從中我領略到了他們對深度學習和機器學習領域的摯愛。更重要的是，我感受到了他們開放、合作和奉獻的精神，而這也是推動人工智能發展不可或缺的。因此，我更加堅定地認為中國人工智能發展的希望在於年青學者，唯有他們才能讓我國人工智能學科在世界有競爭力和影響力。

江山代有人才出，各領風騷數十年！

張志華代筆2017年5月12日於北大靜園六院

選擇語言

:::網站搜尋

深度學習

內容簡介

目錄

序

詳細資料

主題活動

最近瀏覽商品

相關活動

購物說明

同類商品新上架

本類新品熱銷

本類暢銷榜

得獎認證