• 每日一句
  • 今日66折
  • 天天BUY

網站擷取:使用Python(二版)

Web Scraping with Python, 2nd Edition

  • 定價:580
  • 優惠價:79458
  • 優惠期限:2020年01月02日止
  • 再折扣12/7會員日-鑽石、白金會員結帳滿千再9折(部份除外)
  • 再折扣12/7會員日-黃金、一般會員結帳滿千再95折,部份除外
  • 【分級買就送】會員日:分級會員OPEN POINT點數最高5倍送,也可改選1%購物金(部份除外) 詳情
  • 運送方式:
  • 臺灣與離島
  • 海外
  • 可配送點:台灣、蘭嶼、綠島、澎湖、金門、馬祖
  • 可取貨點:台灣、蘭嶼、綠島、澎湖、金門、馬祖
載入中...
 

內容簡介

  在現代網路蒐集資料

  如果程式設計是魔術,那麼網站擷取當然是一種魔法。你可以撰寫簡單的自動化程式查詢網頁伺服器、請求資料、並解析所需的資訊。本書不只介紹網頁擷取,還包含擷取各種現代網站資料的詳盡指南。

  本書第一部份專注於網站擷取機制:使用Python從網頁伺服器取得資料、執行伺服器回應的基本處理工作、以及與網站的自動化互動。第二部分探索適用於不同擷取場景的各種工具與應用程式。

  ‧解析複雜HTML網頁
  ‧以Scrapy架構開發爬行程序
  ‧學習爬行資料的儲存方式
  ‧從文件讀取與提煉資料
  ‧清理格式不良的資料
  ‧以自然語言讀寫
  ‧透過表單與登入的爬行
  ‧JavaScript與API爬行
  ‧使用影像文字識別軟體
  ‧避開爬行陷阱與機器人阻擋程序
  ‧使用爬行程序測試你的網站

好評推薦

  「本書涵蓋的工具與範例,讓我輕易把好幾個重複的工作自動化,騰出時間解決更多有趣的問題。這是本重視成果、內容從實務問題與解法出發,又能很快讀完的好書。」 — Eric VanWyk, 電子計算機工程師,麻州歐林工程學院
 

作者介紹

作者簡介

Ryan Mitchell


  波士頓HedgeServ的資深軟體工程師,為公司開發API與資料分析工具。她畢業於Olin College of Engineering,取得資工學位與Harvard University Extension School的認證。曾任職於Abine,以Python開發爬行程序與自動化工具。為零售、金融、醫療等產業提供網站擷取專案的顧問服務,並曾在Northeastern University與Olin College of Engineering擔任課程顧問和兼職教員。
 

目錄

前言

第一部 建構擷取程序
第一章 你的第一個擷取程序
第二章 進階HTML解析
第三章 撰寫網站爬行程序
第四章 網站爬行模型
第五章 Scrapy
第六章 儲存資料

第二部 儲存資料
第七章 讀取文件
第八章 清理髒資料
第九章 讀寫自然語言
第十章 表單與登入
第十一章 與擷取相關的JavaScript
第十二章 透過API 爬行
第十三章 影像處理與文字辨識
第十四章 避開擷取陷阱
第十五章 以爬行程序測試你的網站
第十六章 平行擷取網站
第十七章 遠端擷取
第十八章 網站擷取的法規與道德

索引
 

詳細資料

  • ISBN:9789864769261
  • 規格:平裝 / 280頁 / 18.5 x 23 x 1.4 cm / 普通級 / 單色印刷 / 初版
  • 出版地:台灣

最近瀏覽商品

 

相關活動

  • 無懼科技變革,做技術的領先者。【資訊月】參展書66折起
 

購物說明

若您具有法人身份為常態性且大量購書者,或有特殊作業需求,建議您可洽詢「企業採購」。 

退換貨說明 

會員所購買的商品均享有到貨十天的猶豫期(含例假日)。退回之商品必須於猶豫期內寄回。 

辦理退換貨時,商品必須是全新狀態與完整包裝(請注意保持商品本體、配件、贈品、保證書、原廠包裝及所有附隨文件或資料的完整性,切勿缺漏任何配件或損毀原廠外盒)。退回商品無法回復原狀者,恐將影響退貨權益或需負擔部分費用。 

訂購本商品前請務必詳閱商品退換貨原則 

  • 【2019大塊全書系】為工作折腰,在日常靠腰!
  • 參展49折起,12/6-7 結帳輸入代碼現折20元
  • 2019寶瓶文化全書系展,單書79折,任選2本75折

訂閱電子報

想獲得最新商品資訊,請訂閱免費電子報