python數據挖掘系列教程——PySpider框架應用全解

全棧工程師開發手冊 (作者:欒鵬)
python教程全解

python數據挖掘系列教程——PySpider框架應用全解。

PySpider介紹

pyspider上手更簡單,操作更加簡便,因爲它增加了 WEB 界面,寫爬蟲迅速,集成了phantomjs,可以用來抓取js渲染的頁面。支持多線程爬取、JS動態解析,提供了可操作界面、出錯重試、定時爬取等等的功能

PySpider是binux做的一個爬蟲架構的開源化實現。主要的功能需求是:

  • 抓取、更新調度多站點的特定的頁面

  • 需要對頁面進行結構化信息提取

  • 靈活可擴展,穩定可監控

而這也是絕大多數python爬蟲的需求 —— 定向抓取,結構化化解析。但是面對結構迥異的各種網站,單一的抓取模式並不一定能滿足,靈活的抓取控制是必須的。爲了達到這個目的,單純的配置文件往往不夠靈活,於是,通過腳本去控制抓取是最後的選擇。
而去重調度,隊列,抓取,異常處理,監控等功能作爲框架,提供給抓取腳本,並保證靈活性。最後加上web的編輯調試環境,以及web任務監控,即成爲了這套框架。

pyspider的設計基礎是:以python腳本驅動的抓取環模型爬蟲

  • 通過python腳本進行結構化信息的提取,follow鏈接調度抓取控制,實現最大的靈活性

  • 通過web化的腳本編寫、調試環境。web展現調度狀態

  • 抓取環模型成熟穩定,模塊間相互獨立,通過消息隊列連接,從單進程到多機分佈式靈活拓展

pyspider-arch

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章