scrapy源码阅读-UserAgentMiddleware

原創

2020-07-03 00:45

源码阅读如下：

"""Set User-Agent header per spider or use a default value from settings"""

from scrapy import signals


class UserAgentMiddleware(object):
    """This middleware allows spiders to override the user_agent"""

    def __init__(self, user_agent='Scrapy'):
        self.user_agent = user_agent

    @classmethod
    def from_crawler(cls, crawler):
        # 传递配置中的USER_AGENT值给初始化函数
        o = cls(crawler.settings['USER_AGENT'])
        # 在开始爬虫任务时，尝试读取爬虫的user_agent值来覆盖配置中对应的值
        crawler.signals.connect(o.spider_opened, signal=signals.spider_opened)
        return o

    def spider_opened(self, spider):
        self.user_agent = getattr(spider, 'user_agent', self.user_agent)

    def process_request(self, request, spider):
        if self.user_agent:
            request.headers.setdefault(b'User-Agent', self.user_agent)

值得注意的是，在开启此中间件时，如果不主动配置USER_AGENT请求就变得很有意思，因为项目中USER_AGENT配置默认值是这样的：

USER_AGENT = 'Scrapy/%s (+https://scrapy.org)' % import_module('scrapy').__version__

实际上我们需要的可能是能够切换user_agent的中间件，所以可以这样去实现：

1.在配置中将所有的user_agent组成一个列表

2.在中间件中用choice随机获取

from scrapy.downloadermiddlewares.useragent import UserAgentMiddleware
from random import choice


class MyUserAgentMiddleware(UserAgentMiddleware):
    def process_request(self, request, spider):
        if self.user_agent:
            request.headers.setdefault(
                b'User-Agent',
                choice(self.user_agent)
            )

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Scrapy框架应用实践

文章目錄安裝創建項目文件說明創建一個spider(爬蟲程序)生成文件xiaoshuo.pyPost方式帶參數請求網頁定義item再次打開spider來提取我們想要的信息setting運行與保存pipline自定義存儲格式Dowml

rainbow_lucky0106

2020-06-20 16:04:08

scrapy-splash学习

材料清單 docker scrapy 當我們經常遇到js加載的頁面，用scrapy來抓取其實挺麻煩的。Splash是做來加載渲染後的頁面，可以支持scrapy使用。由於Splash和Scrapy都支持異步處理，而Selenium

大佬请带带我

2020-07-06 05:23:14

基于python的-scrapy框架的基本用法

# -*- coding:utf-8 -*- # spiders 該文件夾專門存放爬蟲文件 # items.py 用於存儲爬蟲的數據 # middlewares.py 用於處理爬蟲前的請求和響應,例如設置headers # pipeli

2020-07-06 04:33:05

学做网络爬虫【五】- Scrapy（框架）

學做網絡爬蟲【一】- 爬蟲原理學做網絡爬蟲【二】- 數據抓取(Requests) 學做網絡爬蟲【三】- 數據提取學做網絡爬蟲【四】- 動態HTML 佔位

2020-07-03 11:35:01

requests验证代理

python requests設置代理有一坑：正確的設置方式： requests.get(url, proxies={'http': '11.11.11.11:111'}) requests.get(url, proxies={'htt

2020-07-03 00:45:03

scrapy源码解读-RetryMiddleware

值得糾正的理解是：scrapy的重試產生時，雖然會馬上被消費，但是請求會重新走一遍調度器和下載中間件。所以中間件鏈上對應的邏輯會再執行一遍，不用擔心代理和USER_AGENT等等沒有切換 """ An extension to retr

2020-07-03 00:45:03

scrapy小细节

1.配置文件settings.py內一定要使用大寫變量名，不然from_crawler函數中的crawler.settings無法加載 2.回調函數將請求添加到調度器一定要用yield，而不是return 3.scrapy配置的優先級：

2020-07-03 00:45:03

scrapy爬虫——给女朋友的天气预报（简单模板版）

郵箱設置在使用Python自動發送郵件之前，需要對我們的QQ郵箱進行簡單的配置，過程如下： 1.首先登陸QQ郵箱，選擇“賬戶”如下圖所示： 2.在賬戶頁面往下拉，看到“POP3/SMTP”設置，點擊開啓按鈕，如下圖所示： 3.彈出如

2020-06-27 23:35:39

Scrapy使用shell调试

使用shell嘗試爬取 $ scrapy shell https://www.zhipin.com/c101280100/ 2020-02-07 10:42:20 [scrapy.utils.log] INFO: Scrapy

2020-06-27 18:59:31

对习乐app的某课程的所有题目爬取

這學期就想把習樂題庫刷空，一直沒時間弄，期末來了，課少了，搞起來~ 習樂好像是一個一個學長寫的app，但是對不住了，增加了點垃圾數據，23333 思路： 1、手機或模擬器抓包，分析提交自測數據包、查看試卷數據包。

初学者_小铭

2020-06-26 23:44:29

利用Scrapy框架爬取csdn博客数据，并保存到excel

目錄結構 articleSpider.py from scrapy.selector import Selector from scrapy import Spider from firstscrapy.items import

2020-06-23 19:43:05

爬虫请求urllib. parse模块你知多少

from urllib import parse as p import urllib.request def use_urlparse(url): # 1、urlparse(url=,scheme=,allow_fra

2020-06-23 19:42:45

爬虫请求requests模块你应该知道的一些小秘密

import requests import random # 基本示例 def use_requset_get(): url = 'http://httpbin.org/get' response = reque

2020-06-23 19:42:45

创建Scrapy项目，Ubuntu 16.04 Python3.5 pip3

jhczz@vaio:~$ cd work/Python/Vietualenv/ jhczz@vaio:~/work/Python/Vietualenv$ virtualenv -p /usr/bin/python3.5 ENV3.5 R

2020-06-23 04:45:11

Python爬虫03:Scrapy库

Python爬蟲03:Scrapy庫Scrapy庫的示例程序Scrapy爬蟲示例1: 使用爬蟲發送請求創建並運行一個爬蟲項目使用`start_urls`屬性替代`start_requests()`方法指定起始請求Scrapy爬蟲示

2020-06-21 02:59:00

24小時熱門文章

最新文章

最新評論文章