提高scrapy的抓取效率

原創

2019-10-11 13:19

增加併發
1. 默認scrapy開啓的併發線程的個數是32個，可以適當的進行增加。在settings中進行設置CONCURRENT_REQUESTS=100
降低日誌級別
1. 在運行的時候，會有大量的日誌信息的輸出，爲了減少CPU的使用率。可以設置log輸出的信息是INFO或者是ERROR就可以了LOG_LEVEL=‘INFO’
禁止cookie
1. 如果不是真的需要cookie的話，可以在scrapy爬取的時候禁止cookie從而來減少CPU的使用率，提升爬取的效率，COOKIES_ENABLED=False
禁止重試
1. 對失敗的HTTP進行重新的請求（重試）會減慢爬取的速度，因此可以禁止重試RETRY_ENABLED=False
減少下載超時
1. 如果對一個非常慢的鏈接進行爬取，減少下載超時可以能讓卡住的鏈接快速的被放棄，從而來提升效率DOWNLOAD_TIMEOUT=10

USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

# Configure maximum concurrent requests performed by Scrapy (default: 16)
CONCURRENT_REQUESTS = 100
COOKIES_ENABLED = False
LOG_LEVEL = 'ERROR'
RETRY_ENABLED = False
DOWNLOAD_TIMEOUT = 3
# Configure a delay for requests for the same website (default: 0)
# See https://doc.scrapy.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs
# The download delay setting will honor only one of:
#CONCURRENT_REQUESTS_PER_DOMAIN = 16
#CONCURRENT_REQUESTS_PER_IP = 16
DOWNLOAD_DELAY = 3

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

提高scrapy的抓取效率

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

Garnet：微軟官方基於.NET開源的高性能分佈式緩存存儲數據庫

Flink執行圖

Java響應式編程

評估統計算法在銀行僞造鈔票檢測中的價值

Dokcer部署Kafka集羣

【Linux命令學習】lsof查看打開的文件

CSS3彈窗動畫效果

vscode設置垂直長度輔助線視覺限制長度

LC236

前端權限設計

git fetch 和 git pull的區別

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結