前言
作者寫作本書的目的就是用通俗的文字來說明機器學習,最好通俗得如作者在女兒生日時,寫給她的信:
親愛的欣玥:
從2020 年開始,願你:
■ 學習不要死記硬背,避免過擬合;也不要蜻蜓點水,避免欠擬合。
■ 心態像隨機梯度下降一樣,不要過分注重眼前的利益和一時的得失,進而看不清大局而被假象矇騙。
■ 抉擇像隨機森林一樣,各取所長,集思廣益,這樣你才能做出最正確的決定。
■ 操行像自我調整提升一樣,知錯能改,這樣你才能越來越優秀。
■ 說話像奧卡姆剃刀原理一樣,牢記「少就是多」,當一個好的聆聽者。
■ 脾氣不要像梯度爆炸一樣越來越大,也不要像梯度消失一樣沒有,要穩定地敢愛敢恨。
■ 容忍像支援向量機一樣,最大化你的容錯間隔。有一些錯誤是在所難免的,要學會將硬間隔變成軟間隔。
■ 生活像偏差和方差達到最佳點一樣,不偏不倚,不驕不躁。
從2020 年開始,爸爸會
■ 最初輔導你有監督學習。
■ 然後鍛煉你半監督學習。
■ 接著放任你無監督學習。
■ 不斷評估你要增強學習。
當學習到了某個臨界點時,不管外界資源多麼豐富,你的表現一定會趨於穩定,這時必須靠深度學習才能大幅地突破自我,最後獲得遷移學習的能力。
學習並精通一種學科無外乎要經過四個步驟:它是什麼?它可行嗎?怎麼學它?
如何學好它?學習機器學習也不例外,本書就以這四個步驟來解讀機器學習。
◆ 第1 章介紹「機器學習是什麼」,即從定義開始,詳細介紹機器學習有關的知識、資料和效能度量。
◆ 第2 章介紹「機器學習可行嗎」,即機器具備學習樣本以外的資料的能力。
本章從機率的角度證明樣本內誤差和樣本外誤差的關係。
◆ 第3 章介紹「機器學習怎麼學」,即機器如何選出最佳模型。本章介紹機器學習版本的樣本內誤差(訓練誤差)和樣本外誤差(測試誤差),再透過驗證誤差來選擇模型。
前3 章屬於機器學習的概述:第1 章介紹機器學習的概念,為了讓讀者打好基礎;第2 章為證明機器學習是可行的,讓讀者做到心中有數;第3 章運用機器學習效能指標而建置架構,看懂它們不需要精通任何機器學習的演算法。作者在這3 章的寫作上花費的時間最多,光這3 章的內容就絕對讓讀者有所收穫。
第4~14 章介紹「如何學好機器學習」,重點介紹機器學習的各種演算法和調參技巧。在本書中,機器學習模型分為線性模型、非線性模型和整合模型。
◆ 第4~8 章介紹線性模型,包含線性回歸模型、對率回歸模型、正規化回歸模型、支援向量機模型。
◆ 第9~11 章介紹非線性模型,包含單純貝氏模型、決策樹模型、類神經網路模型、正向/反向傳播模型。
◆ 第12~14 章介紹整合模型,包含隨機森林模型、提升樹模型、極度梯度提升模型。
第15 章介紹機器學習中一些非常實用的經驗,包含學習策略、目標設定、誤差分析、偏差和方差分析。
為了幫助讀者閱讀,下面的流程圖展示了整本書的大架構。
本書的每一章都以通俗的引言開始,吸引讀者;以精美的思維導圖過渡,讓說明想法更清晰;以簡要的歸納結束,讓讀者加強所學的知識。此外,每個基礎知識都是理論和實作相結合,既有嚴謹的數學推導,又有多樣(Python 和MATLAB)的程式展示,圖文並茂,以最好的內容服務各種讀者。
作者非常欣賞Google 大腦研究員Chris Olah 的觀點 "I want to understandthings clearly, and explain them well",即力爭把每個基礎知識弄清楚、弄透,然後以通俗容易的方式讓其他人學會、學透。作者願意做「把困難的東西研究透而簡單展示給大眾」的人(Research Distiller),因為學術界中的論文雖然「高大上」,但是很多會讓讀者讀完還是一頭霧水。用Chris Olah 的話來講,這種以不清不楚的方式來解釋高難課題的做法,欠下太多研究債務(Research Debt)。
這本書能夠完成,受到很多機器學習優質課程的啟發,比如史丹佛大學Andrew Ng 教授的CS229 課程、加州理工學院Yaser S. Abu-Mostafa 教授的Learning from Data 課程、台灣大學林軒田教授的機器學習基礎和技法、華盛頓大學Emily Fox 和Carlos Guestrin 教授的Machine Learning Specialization。他們的課程都是理論結合實際,通俗而不失嚴謹,學習這些課程可以讓我解決工作中的很多需求,可見這些課程的功力之高,在這裡我想對他們表達最真摯的感謝(即使他們也不認識我)!
此外,感謝父母無條件地支援我寫書,感謝爺爺、大伯和姐夫經常閱讀我的公眾號文章,經常鼓勵我,感謝夫人在我寫書時幫著帶小孩,感謝女兒給我的無窮動力:想像著以後她拿著我寫的書可以自豪地跟別的小朋友說「這是我爸爸寫的書」。最後感謝所有「王的機器」公眾號的讀者,你們的支援和回饋一直激勵著我不斷進步,這本書是特別為你們而寫的。
由於作者水準有限,書中難免會有錯漏之處,歡迎諸位專家和讀者們斧正。