新到貨2本75折
Python 3.7網路爬蟲快速入門

Python 3.7網路爬蟲快速入門

  • 定價:294
  • 優惠價:87256
  • 運送方式:
  • 臺灣與離島
  • 海外
  • 可配送點:台灣、蘭嶼、綠島、澎湖、金門、馬祖
  • 可取貨點:台灣、蘭嶼、綠島、澎湖、金門、馬祖
載入中...
  • 分享
 

內容簡介

Python 3.7正在成為目前流行的程式設計語言,而網路爬蟲又是Python網路應用中的重要技術,二者的碰撞產生了巨大的火花。本書在這個背景下編寫而成,詳細介紹Python 3.7網路爬蟲技術。

本書分為11章,分別介紹Python 3.7爬蟲開發相關的基礎知識、lxml模組、BeautifulSoup模組、規則運算式、檔處理、多執行緒爬蟲、圖形識別、Scrapy框架、PyQuery模組等。基本上每一章都配有眾多小範例程式與一個大實戰案例。

作者還為每一章分別錄製教學視頻供讀者自學參考。 本書內容詳盡、示例豐富,是有志於學習Python網路爬蟲技術初學者必備的參考書,同時也可作為Python愛好者拓寬知識領域、提升程式設計技術的參考書。
 
 

目錄

第1章  簡識PYTHON 1
1.1  瞭解PYTHON 1
1.1.1  Python的概念 1
1.1.2  有趣的Python程式 2
1.2  整合式開發環境 4
1.2.1  安裝Python 3.7 4
1.2.2  從IDLE啟動Python 6
1.3  編寫自己的第一個PYTHON程式:一個簡單的問候 8
1.4  小結 11

第2章  PYTHON語法速覽 12
2.1  資料類型與變數 12
2.1.1  資料類型 12
2.1.2  變數 14
2.2  運算子 15
2.2.1  算術運算子 16
2.2.2  比較運算子 17
2.2.3  設定運算子 17
2.2.4  邏輯運算子 18
2.2.5  位運算子 19
2.2.6  成員運算子 20
2.2.7  身份運算子 21
2.2.8  運算子的優先順序 21
2.3  使用複合類型 21
2.3.1  列表 22
2.3.2  元組 26
2.3.3  字典 26
2.3.4  集合 27
2.4  流程控制結構 29
2.4.1  選擇結構 29
2.4.2  重複結構(迴圈結構) 30
2.5  小結 33

第3章  函  數 34
3.1  認識函數 34
3.1.1  什麼是函數 34
3.1.2  創建函數 35
3.2  使用函數 35
3.2.1  參數 36
3.2.2  返回值 38
3.2.3  函數的遞迴 39
3.3  實踐一下 40
3.3.1  實踐一:編寫一個函數 40
3.3.2  實踐二:遍歷與計數 41
3.4  小結 42

第4章  LXML模組和XPATH語法 43
4.1  LXML模組 43
4.1.1  什麼是模組 43
4.1.2  關於lxml模組 44
4.1.3  lxml模組的安裝 44
4.1.4  lxml庫的用法 46
4.2  XPATH語法 46
4.2.1  基本語法 46
4.2.2  基本操作 47
4.2.3  lxml庫的用法 49
4.2.4  XPath範例程式測試 50
4.3  爬蟲LXML解析實戰 53
4.3.1  爬取豆瓣網站 53
4.3.2  爬取電影天堂 55
4.3.3  爬取貓眼電影 58
4.3.4  爬取騰訊招聘網 61
4.3.5  關於HTML 63
4.4  小結 63

第5章  BEAUTIFULSOUP庫 64
5.1  簡識BEAUTIFULSOUP 4 64
5.1.1  安裝與配置 64
5.1.2  基本用法 66
5.2  BEAUTIFULSOUP 對象 67
5.2.1  創建BeautifulSoup對象 67
5.2.2  4類對象 70
5.2.3  遍歷文檔樹 74
5.2.4  搜索文檔樹 78
5.3  方法和CSS選擇器 81
5.3.1  find類方法 81
5.3.2  CSS選擇器 82
5.4  爬取示範:使用BEAUTIFULSOUP爬取電影天堂 85
5.4.1  基本思路 85
5.4.2  實際爬取 85
5.5  小結 87

第6章  規則運算式 88
6.1  瞭解規則運算式 88
6.1.1  基本概念 88
6.1.2  re模組 89
6.1.3  compile()方法 89
6.1.4  match()方法 90
6.1.5  group()和groups()方法 90
6.1.6  search()方法 90
6.1.7  findall()方法 92
6.1.8  finditer()方法 93
6.1.9  split()方法 94
6.1.10  sub()方法 94
6.2  抓取 95
6.2.1  抓取標籤間的內容 95
6.2.2  抓取tr d標籤間的內容 98
6.2.3  抓取標籤中的參數 99
6.2.4  字串處理及替換 101
6.3  爬取實戰 102
6.3.1  獲取資料 103
6.3.2  篩選數據 104
6.3.3  保存資料 107
6.3.4  顯示資料 107
6.4  總結 108

第7章  JSON檔處理、CSV檔處理和MYSQL資料庫操作 109
7.1  簡識JSON 109
7.1.1  什麼是JSON 109
7.1.2  字典和清單轉JSON 110
7.1.3  將JSON資料轉儲到檔中 111
7.1.4  將一個JSON字串載入為Python物件 111
7.1.5  從文件中讀取JSON 112
7.2  CSV文件處理 113
7.2.1  讀取CSV文件 113
7.2.2  把資料寫入CSV檔 114
7.2.3  練習 115
7.3  MYSQL資料庫 117
7.3.1  MySQL資料庫的安裝 117
7.3.2  安裝MySQL模組 127
7.3.3  連接MySQL 127
7.3.4  執行SQL語句 128
7.3.5  創建表 129
7.3.6  插入資料 130
7.3.7  查看數據 132
7.3.8  修改資料 133
7.3.9  刪除資料 135
7.3.10  實踐操作 136
7.4  小結 139

第8章  多執行緒爬蟲 140
8.1  關於多執行緒 140
8.1.1  基本知識 140
8.1.2  多執行緒的適用範圍 141
8.2  多執行緒的實現 142
8.2.1  使用_thread模組創建多執行緒 142
8.2.2  關於Threading模組 145
8.2.3  使用函數方式創建執行緒 146
8.2.4  傳遞可調用的類的實例來創建執行緒 148
8.2.5  派生子類並創建子類的實例 149
8.3  使用多進程 150
8.3.1  創建子進程 150
8.3.2  將進程定義為類 151
8.3.3  創建多個進程 152
8.4  爬取示範:多執行緒爬取豆瓣電影 153
8.4.1  使用多進程進行爬取 154
8.4.2  使用多執行緒進行爬取 156
8.5  小結 158

第9章  圖形驗證識別技術 159
9.1  圖像識別開源庫:TESSERACT 159
9.1.1  安裝Tesseract 159
9.1.2  設置環境變數 164
9.1.3  驗證安裝 166
9.2  對網路驗證碼的識別 168
9.2.1  讀取網路驗證碼並識別 168
9.2.2  對驗證碼進行轉化 169
9.3  小結 170

第10章  SCRAPY框架 171
10.1  瞭解SCRAPY 171
10.1.1  Scrapy框架概述 171
10.1.2  安裝 173
10.2  開發SCRAPY的過程 176
10.2.1  Scrapy開發步驟 176
10.2.2  Scrapy保存資訊的格式 177
10.2.3  專案中各個檔的作用 178
10.3  爬蟲範例 179
10.3.1  Scrapy爬取美劇天堂 179
10.3.2  Scrapy爬取豆瓣網 182
10.3.3  Scrapy爬取豆瓣網II 186
10.4  總結 189

第11章  PYQUERY模組 190
11.1  PYQUERY模組 190
11.1.1  什麼是PyQuery模組 190
11.1.2  PyQuery模組的安裝 190
11.2  PYQUERY模組用法 191
11.2.1  使用字串初始化PyQuery物件 191
11.2.2  使用檔初始化PyQuery物件 192
11.2.3  使用URL初始化PyQuery物件 193
11.3  CSS篩選器的使用 194
11.3.1  基本CSS選擇器 194
11.3.2  查找節點 195
11.3.3  遍歷結果並輸出 197
11.3.4  獲取文本資訊 198
11.4  爬蟲PYQUERY解析實戰 200
11.4.1  爬取貓眼票房 200
11.4.2  爬取微博熱搜 201
11.5  小結 202
 
 
 

詳細資料

  • ISBN:9787302536475
  • 規格:平裝 / 202頁 / 16k / 19 x 26 x 1.01 cm / 普通級 / 單色印刷 / 初版
  • 出版地:中國

最近瀏覽商品

 

相關活動

  • 現代出版,由此開始。商務印書館暢銷展,精選滿888現折88。
 

購物說明

溫馨提醒您:若您訂單中有購買簡體館無庫存/預售書或庫存於海外廠商的書籍,建議與其他商品分開下單,以避免等待時間過長,謝謝。

大陸出版品書況:因裝幀品質及貨運條件未臻完善,書況與台灣出版品落差甚大,封面老舊、出現磨痕、凹痕等均屬常態,故簡體字館除封面破損、內頁脫落...等較嚴重的狀態外,其餘所有商品將正常出貨。 

 

請注意,部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

調貨時間:若您購買海外庫存之商品,於您完成訂購後,商品原則上約45個工作天內抵台(若有將延遲另行告知)。為了縮短等待的時間,建議您將簡體書與其它商品分開訂購,以利一般商品快速出貨。 

若您具有法人身份為常態性且大量購書者,或有特殊作業需求,建議您可洽詢「企業採購」。 

退換貨說明 

會員所購買的商品均享有到貨十天的猶豫期(含例假日)。退回之商品必須於猶豫期內寄回。 

辦理退換貨時,商品必須是全新狀態與完整包裝(請注意保持商品本體、配件、贈品、保證書、原廠包裝及所有附隨文件或資料的完整性,切勿缺漏任何配件或損毀原廠外盒)。退回商品無法回復原狀者,恐將影響退貨權益或需負擔部分費用。 

訂購本商品前請務必詳閱商品退換貨原則

  • 翦商作者新作79折
  • 針灸匠張寶旬
  • 浪漫小說精選3本72折