新到貨2本75折
玩轉Python網路爬蟲

玩轉Python網路爬蟲

  • 定價:414
  • 優惠價:87360
  • 運送方式:
  • 臺灣與離島
  • 海外
  • 可配送點:台灣、蘭嶼、綠島、澎湖、金門、馬祖
  • 可取貨點:台灣、蘭嶼、綠島、澎湖、金門、馬祖
載入中...
  • 分享
 

內容簡介

本書站在初學者的角度,從原理到實踐,循序漸進地講述了使用Python開發網路爬蟲的核心技術。全書從邏輯上可分為基礎篇、實戰篇和爬蟲框架篇三部分。
 
基礎篇主要介紹了編寫網路爬蟲所需的基礎知識,分別是網站分析、資料抓取、資料清洗和資料入庫。網站分析講述如何使用Chrome和Fiddler抓包工具對網路做全面分析;資料抓取介紹了Python爬蟲模組Urllib和Requests的基礎知識;資料清洗主要介紹字串操作、正則和BeautifulSoup的使用;資料入庫分別講述了MySQL和MongoDB的操作,通過ORM框架SQLAlchemy實現資料持久化,實現企業級開發。實戰篇深入講解了分散式爬蟲、爬蟲軟體發展與應用、12306搶票程式和微博爬取,所舉示例均來自於開發實踐,可幫助讀者快速提升技能,開發實際專案。框架篇主要講述Scrapy的基礎知識,並通過爬取QQ音樂為實例,讓讀者深層次瞭解Scrapy的使用。

本書內容豐富,注重實戰,適用於從零開始學習網路爬蟲的初學者,或者是已經有一些網路爬蟲編寫經驗,但希望更加全面、深入理解Python爬蟲的開發人員。
 

作者介紹

黃永祥,資訊管理與資訊系統專業學士,曾從事過系統開發和自動化開發,精通B/S和C/S自動化測試技術,多年網路爬蟲開發經驗,對反爬蟲機制有獨到的見解,精通Flask、Django等Web框架並有豐富的網站開發經驗。曾就職于廣州易點科技有限公司,擔任Python開發工程師,目前就職於廣東資料集成有限公司。熱愛分享和新技術的探索,在CSDN上發表多篇Python技術文章。
 

目錄

第1章 理解網路爬蟲 1
1.1 爬蟲的定義 1
1.2 爬蟲的類型 2
1.3 爬蟲的原理 3
1.4 爬蟲的搜索策略 5
1.5 反爬蟲技術及解決方案 6
1.6 本章小結 8
第2章 爬蟲開發基礎 9
2.1 HTTP與HTTPS 9
2.2 請求頭 11
2.3 Cookies 13
2.4 HTML 14
2.5 JavaScript 16
2.6 JSON 18
2.7 Ajax 19
2.8 本章小結 20
第3章 Chrome分析網站 21
3.1 Chrome開發工具 21
3.2 Elements標籤 22
3.3 Network標籤 23
3.4 分析QQ音樂 27
3.5 本章小結 29
第4章 Fiddler抓包工具 30
4.1 Fiddler介紹 30
4.2 Fiddler安裝配置 31
4.3 Fiddler抓取手機應用 33
4.4 Toolbar工具列 36
4.5 Web Session列表 37
4.6 View選項視圖 40
4.7 Quickexec命令列 41
4.8 本章小結 42
第5章 Urllib數據抓取 43
5.1 Urllib簡介 43
5.2 發送請求 44
5.3 複雜的請求 46
5.4 代理IP 47
5.5 使用Cookies 48
5.6 證書驗證 50
5.7 資料處理 51
5.8 本章小結 52
第6章 Requests數據抓取 54
6.1 Requests簡介及安裝 54
6.2 請求方式 55
6.3 複雜的請求方式 57
6.4 下載與上傳 60
6.5 本章小結 63
第7章 驗證碼識別 64
7.1 驗證碼類型 64
7.2 OCR技術 66
7.3 協力廠商平臺 69
7.4 本章小結 72
第8章 數據清洗 74
8.1 字串操作 74
8.2 規則運算式 78
8.3 Beautiful Soup介紹及安裝 84
8.4 Beautiful Soup的使用 86
8.5 本章小結 90
第9章 文檔資料存儲 92
9.1 CSV資料寫入和讀取 92
9.2 Excel資料寫入和讀取 94
9.3 Word資料寫入和讀取 99
9.4 本章小結 101
第10章 ORM框架 104
10.1 SQLAlchemy介紹 104
10.2 安裝SQLAlchemy 105
10.3 連接資料庫 106
10.4 創建資料表 108
10.5 添加數據 111
10.6 更新資料 112
10.7 查詢資料 114
10.8 本章小結 116
第11章 MongoDB資料庫操作 118
11.1 MongoDB介紹 118
11.2 安裝及使用 120
11.2.1 MongoDB 120
11.2.2 MongoDB視覺化工具 121
11.2.3 PyMongo 123
11.3 連接資料庫 123
11.4 添加文檔 125
11.5 更新文檔 126
11.6 查詢文檔 127
11.7 本章小結 130
第12章 專案實戰:爬取淘 寶商品資訊 131
12.1 分析說明 131
12.2 功能實現 134
12.3 資料存儲 136
12.4 本章小結 138
第13章 專案實戰:分散式爬蟲——QQ音樂 139
13.1 分析說明 139
13.2 歌曲下載 140
13.3 歌手和歌曲信息 145
13.4 分類歌手列表 148
13.5 全站歌手列表 150
13.6 資料存儲 152
13.7 分散式概念 154
13.7.1 GIL是什麼 154
13.7.2 為什麼會有GIL 154
13.8 併發庫concurrent.futures 155
13.9 分散式爬蟲 157
13.10 本章小結 159
第14章 專案實戰:爬蟲軟體—— 淘 寶商品資訊 161
14.1 分析說明 161
14.2 GUI庫介紹 162
14.3 PyQt5安裝及環境搭建 162
14.4 軟體介面開發 165
14.5 MVC——視圖 169
14.6 MVC——控制器 171
14.7 MVC——模型 172
14.8 擴展思路 173
14.9 本章小結 174
第15章 專案實戰:12306搶票 176
15.1 分析說明 176
15.2 驗證碼驗證 177
15.3 用戶登錄與驗證 181
15.4 查詢車次 187
15.5 預訂車票 193
15.6 提交訂單 196
15.7 生成訂單 204
15.8 本章小結 209
第16章 專案實戰:玩轉微博 219
16.1 分析說明 219
16.2 用戶登錄 220
16.3 用戶登錄(帶驗證碼) 232
16.4 關鍵字搜索熱門微博 240
16.5 發佈微博 247
16.6 關注用戶 253
16.7 點贊和轉發評論 257
16.8 本章小結 263
第17章 Scrapy爬蟲框架 265
17.1 爬蟲框架 265
17.2 Scrapy的運行機制 267
17.3 安裝Scrapy 268
17.4 爬蟲開發快速入門 270
17.5 Spiders介紹 277
17.6 Spider的編寫 278
17.7 Items的編寫 282
17.8 Item Pipeline的編寫 284
17.9 Selectors的編寫 288
17.10 文件下載 291
17.11 本章小結 296
第18章 專案實戰:Scrapy爬取QQ音樂 298
18.1 分析說明 298
18.2 創建項目 299
18.3 編寫setting 300
18.4 編寫Items 301
18.5 編寫Item Pipelines 302
18.6 編寫Spider 305
18.7 本章小結 310
 

詳細資料

  • ISBN:9787302503286
  • 規格:平裝 / 311頁 / 16k / 22.9 x 16.3 x 1 cm / 普通級 / 單色印刷 / 1-1
  • 出版地:中國

最近瀏覽商品

 

相關活動

  • 【其他】2024采實電子書全書系:春暖花開‧享閱讀,參展書單書85折起、任選3本79折
 

購物說明

溫馨提醒您:若您訂單中有購買簡體館無庫存/預售書或庫存於海外廠商的書籍,建議與其他商品分開下單,以避免等待時間過長,謝謝。

大陸出版品書況:因裝幀品質及貨運條件未臻完善,書況與台灣出版品落差甚大,封面老舊、出現磨痕、凹痕等均屬常態,故簡體字館除封面破損、內頁脫落...等較嚴重的狀態外,其餘所有商品將正常出貨。 

 

請注意,部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

調貨時間:若您購買海外庫存之商品,於您完成訂購後,商品原則上約45個工作天內抵台(若有將延遲另行告知)。為了縮短等待的時間,建議您將簡體書與其它商品分開訂購,以利一般商品快速出貨。 

若您具有法人身份為常態性且大量購書者,或有特殊作業需求,建議您可洽詢「企業採購」。 

退換貨說明 

會員所購買的商品均享有到貨十天的猶豫期(含例假日)。退回之商品必須於猶豫期內寄回。 

辦理退換貨時,商品必須是全新狀態與完整包裝(請注意保持商品本體、配件、贈品、保證書、原廠包裝及所有附隨文件或資料的完整性,切勿缺漏任何配件或損毀原廠外盒)。退回商品無法回復原狀者,恐將影響退貨權益或需負擔部分費用。 

訂購本商品前請務必詳閱商品退換貨原則

  • 翦商作者新作79折
  • 針灸匠張寶旬
  • 浪漫小說精選3本72折