【爬蟲】scrapy加入多種防爬策略

隨機UA

1、安裝scrapy-fake-useragent模塊

pip install scrapy-fake-useragent

2、修改scrapy項目的settings.py文件

DOWNLOADER_MIDDLEWARES = {

# 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware':None , # 註釋掉默認方法

'scrapy_fake_useragent.middleware.RandomUserAgentMiddleware':400,# 開啓

請求間隔

1、修改scrapy項目的settings.py文件

DOWNLOAD_DELAY = 4 

RANDOMIZE_DOWNLOAD_DELAY = True

DOWNLOAD_DELAY 設置兩次請求間隔是4秒,RANDOMIZE_DOWNLOAD_DELAY 設置請求間隔隨機開啓,也就是實際間隔是0.54 秒 ~ 1.54 秒之間的隨機數。

併發請求數

1、修改scrapy項目的settings.py文件

CONCURRENT_REQUESTS = 4

CONCURRENT_REQUESTS:併發請求最大值
CONCURRENT_REQUESTS_PER_DOMAIN:單個網站的併發請求最大值
CONCURRENT_REQUESTS_PER_IP:單個IP併發請求最大值,會覆蓋上個設置

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章