作爲一種便捷地收集網上信息並從中抽取出可用信息的方式,網絡爬蟲技術變得越來越有用。使用Python這樣的簡單編程語言,你可以使用少量編程技能就可以爬取複雜的網站。
《用Python寫網絡爬蟲》作爲使用Python來爬取網絡數據的傑出指南,講解了從靜態頁面爬取數據的方法以及使用緩存來管理服務器負載的方法。此外,本書還介紹瞭如何使用AJAX URL和Firebug擴展來爬取數據,以及有關爬取技術的更多真相,比如使用瀏覽器渲染、管理cookie、通過提交表單從受驗證碼保護的複雜網站中抽取數據等。本書使用Scrapy創建了一個高級網絡爬蟲,並對一些真實的網站進行了爬取。
《用Python寫網絡爬蟲》介紹瞭如下內容:
通過跟蹤鏈接來爬取網站;
使用lxml從頁面中抽取數據;
構建線程爬蟲來並行爬取頁面;
將下載的內容進行緩存,以降低帶寬消耗;
解析依賴於JavaScript的網站;
與表單和會話進行交互;
解決受保護頁面的驗證碼問題;
對AJAX調用進行逆向工程;
使用Scrapy創建高級爬蟲。