Scrapy爬虫系列笔记之九:反爬虫之Useragent设置以及开源项目的结合_by_书䜣

原創

SX_csu2016sw

2018-08-22 08:40

3.scrapy反爬虫技术

3.1User-agent

反爬：网站发现某个时段访问的user-agent都是python,直接限制访问
对应方式:user-agent模拟浏览器

方式一.settings文件中写入一个预置list，在爬虫文件中给header的user-Agent进行设置

settings.py文件中将user-agent写入，这里我采用的是写一个list,之后爬虫文件只需要import就可以了

#settings.py
user_agent_list[
""
""
""
""
""
""
]

接下来我们编写爬虫文件

#爬虫文件,parse函数中每次yeild之前设置头就OK
from settings import user_agent_list
'''
省略重复代码
'''
import random 
random_index=random.randint(0,len(user_agent_list)-1)
random_agent = user_agent_list[random_index]
yeild .......

方式二.中间件进行编写，从而降低代码耦合度，这样写多个文件也可以操作了

fake-useragent的使用

#使用github的开源项目 pip install fake-useragent即可
from fake_useragent import UserAgent
class RandomUserAgentMiddleware(object):
 #随即更换user-agent
 def __init__(self, crawler):
   super(RandomUserAgentMiddlware, self).__init__
   self.ua = UserAgent()
 @classmethod
 def from_crawler(cls, crawler):
   return cls(crawler)
 def process_request(self, request ,spider):
   request.header.setdefault('User-Agent',self.ua.random)

注意同时将下载的中间件设置进行修改
原来默认的一定要设置为None，不然只是设置一个大一点的数字只是晚一些执行，还是会将header给覆盖掉

#middlewares.py
DOWNLOADER_MIDDLEWARES = {
'ArticleSpider.middlewares.MyCustomDownloaderMiddleware': None,
'ArticleSpider.middlewares.RandomUserAgentMiddleware': 1,}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Scrapy爬虫系列笔记之九:反爬虫之Useragent设置以及开源项目的结合_by_书䜣

3.scrapy反爬虫技术

3.1User-agent

redis的key乱码问题和值自增问题

一个开源且全面的C#算法实战教程

一款.NET开源、功能强大、跨平台的绘图库 - OxyPlot

CORS error 但是 status code 是200 OK

压缩上传的GPU数据的方案

使用skopeo同步镜像

[Visual Studio]MFC遊戲開發之回合制對戰系統二_by書訢

[Visual Studio]MFC遊戲開發之回合制對戰系統_by書訢

繼承重寫自動轉型/ 多態

在Android Studio中進行單元測試和UI測試

詳細研究java內存中的對象

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結