《Python數據分析與大數據處理從入門到精通》主要講解數據分析與大數據處理所需的技術、基礎設施、核心概念、實施流程。從編程語言準備、數據採集與清洗、數據分析與視覺化,到大型數據的分散式存儲與分散式運算,貫穿了整個大數據專案開發流程。本書輕理論、重實踐,目的是讓讀者快速上手。
第1篇首先介紹了Python的基本語法、物件導向開發、模組化設計等,掌握Python的編程方式。然後介紹了多執行緒、多進程及其相互間的通信,讓讀者對分散式程式有個基本的認識。
第2篇介紹了網路數據採集、數據清洗、數據存儲等技術。
第3篇介紹了Python常用的數據分析工具,擴展了更多的數據清洗、插值方法,為最終的數據視覺化奠定基礎。
第4篇是大數據分析的重點。首先介紹了Hadoop的框架原理、調度原理,MapReduce原理與編程模型、環境搭建,接著介紹了Spark框架原理、環境搭建方式,以及如何與Hive等協力廠商工具進行交互,還介紹了最新的結構化流式處理技術。
第5篇通過三個專案實例,綜合介紹了如何分析網頁、如何搭建分散式爬蟲、如何應對常見的反爬蟲、如何設計數據模型、如何設計架構模型、如何在實踐中綜合運用前四篇涉及的技術。
本書既適合非電腦專業的編程“小白”,也適合剛畢業或即將畢業走向工作崗位的廣大畢業生,以及已經有編程經驗,但想轉行做大數據分析的專業人士。同時,還可以作為廣大職業院校、電腦培訓班的教學參考用書。