scrapy專利爬蟲(一)——scrapy簡單介紹

scrapy專利爬蟲(一)——scrapy簡單介紹

概述

scrapy是一款方便,快捷的開源爬蟲框架。

An open source and collaborative framework for extracting the data you need from websites.

In a fast, simple, yet extensible way.

上一版本中,筆者採用selenium的方式進行數據採集,採集速度偏慢,而且有莫名的原因會導致第一次採集失敗。改用scrapy之後,就像鳥槍換大炮一般,效果顯著。

特點

  • 多線程

儘管python中存在着GIL鎖,導致多線程的效果不是特別理想,但是對於網絡請求這種本身就需要等待的事件來說,多線程的作用還是非常大的。無需使程序花大量的時間在等待請求反饋上,可以騰出手去處理別的事情。

  • 默認自動去掉重複鏈接

不停地訪問一個網站對服務器的壓力也是蠻大的,scrapy使用DUPEFILTER_CLASS自動去除重複發送的請求。減輕了爬取對象服務器的壓力,也降低了爬蟲被發現的風險。

  • 簡單易用,結構清晰

借用一下官方的圖

scrapy架構圖

​ 從圖上可以看出scrapy分爲,item,pipeline,scrapy engine,downloader,spider等幾個部分。本項目只使用了一下 item, pipeline,downloader middlewares, spider等一部分組件。對於普通項目,使用這些部分也已經可以滿足大部分需求。

安裝

筆者只在windows系統中嘗試過scrapy,至於其他系統,請自行到查詢。

pip install scrapy

使用pip安裝即可,但是安裝過程中經常會出現各種報錯,通常都是以爲安裝過程中一些庫安裝不上所致。需要開發者查看安裝過程中輸出的報錯,根據報錯再到對應庫的官網上將whl文件下載下來,用pip install 將whl文件安裝即可。筆者在安裝過程中遇到的問題是twisted的庫安裝不上,下載下來安裝後便可正常。

源碼下載

讚賞
微信支付 支付寶
微信 支付寶
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章