scrapy專利爬蟲（一）——scrapy簡單介紹

概述

scrapy是一款方便，快捷的開源爬蟲框架。

An open source and collaborative framework for extracting the data you need from websites.

In a fast, simple, yet extensible way.

在上一版本中，筆者採用selenium的方式進行數據採集，採集速度偏慢，而且有莫名的原因會導致第一次採集失敗。改用scrapy之後，就像鳥槍換大炮一般，效果顯著。

特點

多線程

儘管python中存在着GIL鎖，導致多線程的效果不是特別理想，但是對於網絡請求這種本身就需要等待的事件來說，多線程的作用還是非常大的。無需使程序花大量的時間在等待請求反饋上，可以騰出手去處理別的事情。

默認自動去掉重複鏈接

不停地訪問一個網站對服務器的壓力也是蠻大的，scrapy使用DUPEFILTER_CLASS自動去除重複發送的請求。減輕了爬取對象服務器的壓力，也降低了爬蟲被發現的風險。

簡單易用，結構清晰

借用一下官方的圖

從圖上可以看出scrapy分爲,item,pipeline,scrapy engine,downloader,spider等幾個部分。本項目只使用了一下 item, pipeline,downloader middlewares, spider等一部分組件。對於普通項目，使用這些部分也已經可以滿足大部分需求。

安裝

筆者只在windows系統中嘗試過scrapy，至於其他系統，請自行到查詢。

pip install scrapy

使用pip安裝即可，但是安裝過程中經常會出現各種報錯，通常都是以爲安裝過程中一些庫安裝不上所致。需要開發者查看安裝過程中輸出的報錯，根據報錯再到對應庫的官網上將whl文件下載下來，用pip install 將whl文件安裝即可。筆者在安裝過程中遇到的問題是twisted的庫安裝不上，下載下來安裝後便可正常。

源碼下載

csdn
github

讚賞

微信	支付寶

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

scrapy專利爬蟲（一）——scrapy簡單介紹

scrapy專利爬蟲（一）——scrapy簡單介紹

概述

特點

安裝

源碼下載

【面試準備】又一次失敗的面試經歷，題目離譜～資深軟件測試工程師

熱力地圖開發

關於vue組件的destroy和事件傳遞的一些問題

jenkins與django的持續集成

django生產環境部署

django測試——關於登錄態

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結