本書以Java為開發語言,系統地介紹了網路爬蟲的理論知識和基礎工具,包括網路爬蟲涉及的Java基礎知識、HTTP協定基礎與網路抓包、網頁內容獲取、網頁內容解析和網路爬蟲資料存儲等。本書選取典型網站,採用案例講解的方式介紹網路爬蟲中涉及的問題,以增強讀者的動手實踐能力。
同時,本書還介紹了3種Java網路爬蟲開源框架,即Crawler4j、WebCollector和WebMagic。本書適用於Java網路爬蟲開發的初學者和進階者;也可作為網路爬蟲課程教學的參考書,供高等院校文本挖掘、自然語言處理、大資料商務分析等相關學科的大學生和研究生參考使用;也可供企業網路爬蟲開發人員參考使用。