新到貨2本75折
Python爬蟲技術

Python爬蟲技術

  • 定價:534
  • 優惠價:87465
  • 運送方式:
  • 臺灣與離島
  • 海外
  • 可配送點:台灣、蘭嶼、綠島、澎湖、金門、馬祖
  • 可取貨點:台灣、蘭嶼、綠島、澎湖、金門、馬祖
載入中...
  • 分享
 

內容簡介

《Python爬蟲技術:深入理解原理、技術與開發/甯哥大講堂》從實戰角度系統講解Python爬蟲的核心知識點,並通過大量的真實項目讓讀者熟練掌握Python爬蟲技術。
  
《Python爬蟲技術:深入理解原理、技術與開發/甯哥大講堂》用20多個實戰案例,完美演繹了使用各種技術編寫Python爬蟲的方式,讀者可以任意組合這些技術,完成非常複雜的爬蟲應用。
   
《Python爬蟲技術:深入理解原理、技術與開發/甯哥大講堂》共20章,分為5篇。第1篇基礎知識(第1、2章),主要包括Python運行環境的 搭建、HTTP基礎、網頁基礎(HTML、CSS、JavaScript等)、爬蟲的基本原理、Session與Cookie。第2篇網路庫(第3~6 章),主要包括網路庫urllib、urllib3、requests和Twisted的核心使用方法,如發送HTTP請求、處理超時、設置HTTP請求 頭、搭建和使用代理、解析連結、Robots協定等。第3篇解析庫(第7~10章),主要包括3個常用解析庫(lxml、BeautifulSoup和 pyquery)的使用方法,同時介紹多種用於分析HTML代碼的技術,如規則運算式、XPath、CSS選擇器、方法選擇器等。第4篇資料存儲(第 11、12章),主要包括Python中資料存儲的解決方案,如檔存儲和資料庫存儲,其中資料庫存儲包括多種資料庫,如本地資料庫SQLite、網路數 據庫MySQL以及文檔資料庫MongoDB。第5篇爬蟲高級應用(第13~20章),主要包括Python爬蟲的一些高級技術,如抓取非同步資料、 Selenium、Splash、抓取移動App資料、Appium、多執行緒爬蟲、爬蟲框架Scrapy,最後給出一個綜合的實戰案例,綜合了 Python爬蟲、資料存儲、PyQt5、多執行緒、資料視覺化、Web等多種技術實現一個視覺化爬蟲。
  
《Python爬蟲技術:深入理解原理、技術與開發/甯哥大講堂》可以作為廣大電腦軟體技術開發者、互聯網技術研究人員學習“爬蟲技術”的參考用書。也可以作為高等院校電腦科學與技術、軟體工程、人工智慧等專業的教學參考用書。
 

作者介紹

李甯,歐瑞科技創始人/CEO,甯哥教育創始人,東北大學電腦專業碩士。曾任國內某大型軟體公司專案經理、甯哥教育教學總監、騰訊課堂特約講師、51CTO學院講師、CSDN特級講師。從事軟體研究和開發超過15年,一直從事Python、人工智慧、區塊鏈、JavaScript、Node.js、Java以及跨平臺技術的研究和技術指導工作,對國內外相關領域的技術、理論和實踐有很深的理解和研究。
 

目錄

前言

第1篇 基礎知識
第1章 開發環境配置
1.1 安裝官方的Python運行環境
1.2 配置PATH環境變數
1.3 安裝AnacondaPython開發環境
1.4 安裝PyCharm
1.5 配置PyCharm
1.6 小結

第2章 爬蟲基礎
2.1 HTTP基礎
2.1.1 URI和URL
2.1.2 超文字
2.1.3 HTTP與HTTPS
2.1.4 HTTP的請求過程
2.1.5 請求
2.1.6 回應
2.2 網頁基礎
2.2.1 HTML
2.2.2 CSS
2.2.3 CSS選擇器
2.2.4 JavaScript
2.3 爬蟲的基本原理
2.3.1 爬蟲的分類
2.3.2 爬蟲抓取資料的方式和手段
2.4 Session與Cookie
2.4.1 靜態頁面和動態頁面
2.4.2 無狀態HTTP與Cookie
2.4.3 利用Session和Cookie保持狀態
2.4.4 查看網站的Cookie
2.4.5 HTTP狀態何時會失效
2.5 實戰案例:抓取所有的網路資源
2.6 實戰案例:抓取博客文章列表
2.7 小結

第2篇 網路庫
第3章 網路庫urllib
3.1 urllib簡介
3.2 發送請求與獲得回應
3.2.1 用urlopen函數發送HTTPGET請求
3.2.2 用urlopen函數發送HTTPPOST請求
3.2.3 請求超時
3.2.4 設置HTTP請求頭
3.2.5 設置中文HTTP請求頭
3.2.6 請求基礎驗證頁面
3.2.7 搭建代理與使用代理
3.2.8 讀取和設置Cookie
3.3 異常處理
3.3.1 URLError
3.3.2 HTTPError
3.4 解析連結
3.4.1 拆分與合併URL(urlparse與urlunparse)
3.4.2 另一種拆分與合併URL的方式(urlsplit與urlunsplit)
3.4.3 連接URL(urljoin)
3.4.4 URL編碼(urlencode)
3.4.5 編碼與解碼(quote與unquote)
3.4.6 參數轉換(parse_qs與parse_qsl)
3.5 Robots協議
3.5.1 Robots協議簡介
3.5.2 分析Robots協議
3.6 小結

第4章 網路庫u川ib3
4.1 urllib3簡介
4.2 urllib3模組
4.3 發送HTTPGET請求
4.4 發送HTTPPOST請求
4.5 HTTP請求頭
4.6 HTTP回應Z頭
4.7 上傳文件
4.8 超時
4.9 小結

第5章 網路庫requests
5.1 基本用法
5.1.1 requests的HelIoWorld
5.1.2 GET請求
5.1.3 添加HTTP請求頭
5.1.4 抓取二進位資料
5.1.5 POST請求
5.1.6 回應資料
5.2 高級用法
5.2.1 上傳文件
5.2.2 處理Cookie
5.2.3 使用同一個會話(Session)
5.2.4 SSL證書驗證
5.2.5 使用代理
5.2.6 超時
5.2.7 身份驗證
5.2.8 將請求打包
5.3 小結

第6章 Twisted網路框架
……

第3篇 解析庫
第4篇 資料存儲
第5篇 爬蟲高級應用
 

Python現在非常火爆。但Python就和英語一樣,如果只會Python語言,就相當於只能用英語進行日常會話。然而,真正的英語高手是可以作為專業領域翻譯的,如IT、金融、數學等專業領域。Python也是一樣,光學習Python語言是不行的,要想找到更好的工作,或得到更高的薪水,需要學會用Python做某一領域的應用。
  
現在Python應用的熱門領域比較廣,例如人工智慧,不過人工智慧不光涉及Python語言本身的技術,還涉及數學領域的知識,雖然比較火爆,但絕對不是短時間可以掌握的。然後有一個領域與人工智慧的火爆程度相當,但不像人工智慧那樣難入門,這就是爬蟲領域。
  
為什麼爬蟲領域如此火爆呢?其實爬蟲的基本功能就是從網上下載各種類型的資料(如HTML、影像檔等)。但不要小瞧這些下載的資料,因為這些資料將成為很多應用的資料來源。例如,著名的Google搜尋引擎,每天都會有數以億計的查詢請求,而搜尋引擎為這些請求返回的資料,都是來源於強大的爬蟲。編寫搜索引擎的第一步就是通過爬蟲抓取整個互聯網的資料,然後將這些資料庫保存到本地(以特定的資料格式),接下來就是對這些資料進行分析整理。然後才可以通過搜尋引擎進行查詢。雖然搜尋引擎的實現技術非常多,也非常複雜,但爬蟲是1,其他的所有技術都是0,如果沒有爬蟲搜集資料,再強大的分析程式也毫無用武之地。
  
除了搜尋引擎外,人工智慧中的重要分支深度學習也需要爬蟲抓取的資料來訓練模型。例如,要想訓練一個識別金字塔的深度學習模型,就需要大量與金字塔相關的圖片進行訓練。最簡單的方式,就是使用百度或穀歌搜索金字塔圖片,然後用爬蟲抓取這些圖片到本地。這是利用了搜尋引擎通過關鍵字分類的特性,並且重新利用了這些分類的圖片。
  
通過這些例子可以瞭解到,學習爬蟲是進入其他更高端領域的鑰匙,所以學習Python爬蟲將成為第一個需要選擇的熱門領域。
  
儘管爬蟲的基本功能是下載檔案,但一個複雜的爬蟲應用,可不光涉及網路技術。將資料下載後,還需要對資料進行分析,提取需要的資訊,以及進行資料視覺化,甚至需要一個基於UI的視覺化爬蟲。所以與爬蟲有關的技術還是很多的。
  
由於Pythonp爬蟲涉及的技術很多,學習資料過於分散。所以,筆者覺得很有必要編寫一本全面介紹Python爬蟲實戰類的書籍,在書中分享筆者對Python爬蟲以及相關技術的理解和經驗,幫助同行和感興趣的朋友快速入門,並利用Python語言編寫各種複雜的爬蟲應用。筆者希望本書能起到拋磚引玉的作用,使讀者對Python爬蟲以及相關技術產生濃厚的興趣,並能成功進入Python爬蟲領域。加油!高薪的工作在等著你們!
 

詳細資料

  • ISBN:9787302535683
  • 規格:平裝 / 488頁 / 16k / 19 x 26 x 1 cm / 普通級 / 單色印刷 / 初版
  • 出版地:中國

最近瀏覽商品

 

相關活動

  • 【其他】2024采實電子書全書系:春暖花開‧享閱讀,參展書單書85折起、任選3本79折
 

購物說明

溫馨提醒您:若您訂單中有購買簡體館無庫存/預售書或庫存於海外廠商的書籍,建議與其他商品分開下單,以避免等待時間過長,謝謝。

大陸出版品書況:因裝幀品質及貨運條件未臻完善,書況與台灣出版品落差甚大,封面老舊、出現磨痕、凹痕等均屬常態,故簡體字館除封面破損、內頁脫落...等較嚴重的狀態外,其餘所有商品將正常出貨。 

 

請注意,部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

調貨時間:若您購買海外庫存之商品,於您完成訂購後,商品原則上約45個工作天內抵台(若有將延遲另行告知)。為了縮短等待的時間,建議您將簡體書與其它商品分開訂購,以利一般商品快速出貨。 

若您具有法人身份為常態性且大量購書者,或有特殊作業需求,建議您可洽詢「企業採購」。 

退換貨說明 

會員所購買的商品均享有到貨十天的猶豫期(含例假日)。退回之商品必須於猶豫期內寄回。 

辦理退換貨時,商品必須是全新狀態與完整包裝(請注意保持商品本體、配件、贈品、保證書、原廠包裝及所有附隨文件或資料的完整性,切勿缺漏任何配件或損毀原廠外盒)。退回商品無法回復原狀者,恐將影響退貨權益或需負擔部分費用。 

訂購本商品前請務必詳閱商品退換貨原則

  • 針灸匠張寶旬
  • 手作新書79折起
  • 浪漫小說精選3本72折