Scrapy爬蟲系列筆記之九:反爬蟲之Useragent設置以及開源項目的結合_by_書訢

原創

SX_csu2016sw

2018-08-22 08:40

3.scrapy反爬蟲技術

3.1User-agent

反爬：網站發現某個時段訪問的user-agent都是python,直接限制訪問
對應方式:user-agent模擬瀏覽器

方式一.settings文件中寫入一個預置list，在爬蟲文件中給header的user-Agent進行設置

settings.py文件中將user-agent寫入，這裏我採用的是寫一個list,之後爬蟲文件只需要import就可以了

#settings.py
user_agent_list[
""
""
""
""
""
""
]

接下來我們編寫爬蟲文件

#爬蟲文件,parse函數中每次yeild之前設置頭就OK
from settings import user_agent_list
'''
省略重複代碼
'''
import random 
random_index=random.randint(0,len(user_agent_list)-1)
random_agent = user_agent_list[random_index]
yeild .......

方式二.中間件進行編寫，從而降低代碼耦合度，這樣寫多個文件也可以操作了

fake-useragent的使用

#使用github的開源項目 pip install fake-useragent即可
from fake_useragent import UserAgent
class RandomUserAgentMiddleware(object):
 #隨即更換user-agent
 def __init__(self, crawler):
   super(RandomUserAgentMiddlware, self).__init__
   self.ua = UserAgent()
 @classmethod
 def from_crawler(cls, crawler):
   return cls(crawler)
 def process_request(self, request ,spider):
   request.header.setdefault('User-Agent',self.ua.random)

注意同時將下載的中間件設置進行修改
原來默認的一定要設置爲None，不然只是設置一個大一點的數字只是晚一些執行，還是會將header給覆蓋掉

#middlewares.py
DOWNLOADER_MIDDLEWARES = {
'ArticleSpider.middlewares.MyCustomDownloaderMiddleware': None,
'ArticleSpider.middlewares.RandomUserAgentMiddleware': 1,}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Scrapy爬蟲系列筆記之九:反爬蟲之Useragent設置以及開源項目的結合_by_書訢

3.scrapy反爬蟲技術

3.1User-agent

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

通義千問 2.5 “客串” ChatGPT4，你分的清嗎？

Garnet：微軟官方基於.NET開源的高性能分佈式緩存存儲數據庫

Flink執行圖

Java響應式編程

評估統計算法在銀行僞造鈔票檢測中的價值

[Visual Studio]MFC遊戲開發之回合制對戰系統二_by書訢

[Visual Studio]MFC遊戲開發之回合制對戰系統_by書訢

繼承重寫自動轉型/ 多態

在Android Studio中進行單元測試和UI測試

詳細研究java內存中的對象

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結