「這本書正是我當年提出『資料科學家』這個職稱時,所希望能擁有的一本書。如果您希望投身資料科學/工程、人工智慧,或機器學習領域,就該從這裡開始。」
── DJ Patil 博士,美國首任首席資料科學家
身為一位有志成為資料科學家的讀者,能夠理解各類組織為何仰賴資料來做出關鍵決策──無論是公司在設計網站、還是市政府在改善公共服務,或者是科學家在致力於阻止疾病擴散。而您也希望具備將雜亂資料整理為可行洞見的能力。我們將這整個過程稱為「資料科學生命週期」:也就是從資料的收集、整理、分析,到導出結論的完整流程。
本書是第一本涵蓋程式設計與統計兩大基礎技能、並貫穿整個資料科學生命週期的書籍。本書的對象包括希望成為資料科學家的人、與資料科學家共事的專業人士,以及希望跨越「技術/非技術」界線的資料分析師。只要具備基本的 Python 程式設計知識,便可學習如何透過業界標準工具(如 pandas)來處理資料:
.將感興趣的問題精煉為可透過資料探究的研究問題
.執行資料蒐集,其中可能涉及文字處理、網頁爬蟲等技術
.透過資料清理、探索與視覺化,萃取出有價值的洞見
.學會使用建模來描述資料特性
.推廣研究結果,進行超出資料本身的推論