scrapy小細節

原創

2020-07-03 00:45

1.配置文件settings.py內一定要使用大寫變量名，不然from_crawler函數中的crawler.settings無法加載

2.回調函數將請求添加到調度器一定要用yield，而不是return

3.scrapy配置的優先級：

在命令行中通過-s覆蓋設置，優先級最高
每個爬蟲中custom_settings中指定配置
項目settings文件指定配置
scrapy命令行工具覆蓋的設置
默認的全局配置

4.訪問配置：

spider初始化中：需要重寫from_crawler方法。

@classmethod
def from_crawler(self, crawler, *args, **kwargs)
    return super(test, self).from_crawler(crawler, crawler.settings)

def __init__(self, settings):
    pass

spider實例方法中：

self.settings.get("SCHEDULER")

中間件中訪問：

@classmethod
def from_crawler(cls, crawler):
    return cls(crawler.settings)

5.主動關閉爬蟲的方法：

在中間件中: 注意在請求初始地址時，process_request和process_response裏關閉爬蟲會報錯

def process_request(self, request, response, spider):
    ...
    spdier.crawler.engine.close_spider(spider, '關閉原因')

在爬蟲中：
```
self.crawler.engine.close_spider(self, '關閉原因')
```
爬蟲的dont_filter=False會影響中間件的return request執行，因爲已經請求過一遍可能會被過濾，scrapy默認開始過濾，所以想實現正常的請求過濾，請求異常時能return request，需要在return request之前request.dont_filter = True

6.當一個節點有子節點時，它的text()返回值字符串會以子節點爲單位被截斷，返回列表

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Scrapy框架應用實踐

文章目錄安裝創建項目文件說明創建一個spider(爬蟲程序)生成文件xiaoshuo.pyPost方式帶參數請求網頁定義item再次打開spider來提取我們想要的信息setting運行與保存pipline自定義存儲格式Dowml

rainbow_lucky0106

2020-06-20 16:04:08

scrapy-splash學習

材料清單 docker scrapy 當我們經常遇到js加載的頁面，用scrapy來抓取其實挺麻煩的。Splash是做來加載渲染後的頁面，可以支持scrapy使用。由於Splash和Scrapy都支持異步處理，而Selenium

大佬请带带我

2020-07-06 05:23:14

基於python的-scrapy框架的基本用法

# -*- coding:utf-8 -*- # spiders 該文件夾專門存放爬蟲文件 # items.py 用於存儲爬蟲的數據 # middlewares.py 用於處理爬蟲前的請求和響應,例如設置headers # pipeli

2020-07-06 04:33:05

學做網絡爬蟲【五】- Scrapy（框架）

學做網絡爬蟲【一】- 爬蟲原理學做網絡爬蟲【二】- 數據抓取(Requests) 學做網絡爬蟲【三】- 數據提取學做網絡爬蟲【四】- 動態HTML 佔位

2020-07-03 11:35:01

requests驗證代理

python requests設置代理有一坑：正確的設置方式： requests.get(url, proxies={'http': '11.11.11.11:111'}) requests.get(url, proxies={'htt

2020-07-03 00:45:03

scrapy源碼閱讀-UserAgentMiddleware

源碼閱讀如下： """Set User-Agent header per spider or use a default value from settings""" from scrapy import signals clas

2020-07-03 00:45:03

scrapy源碼解讀-RetryMiddleware

值得糾正的理解是：scrapy的重試產生時，雖然會馬上被消費，但是請求會重新走一遍調度器和下載中間件。所以中間件鏈上對應的邏輯會再執行一遍，不用擔心代理和USER_AGENT等等沒有切換 """ An extension to retr

2020-07-03 00:45:03

scrapy爬蟲——給女朋友的天氣預報（簡單模板版）

郵箱設置在使用Python自動發送郵件之前，需要對我們的QQ郵箱進行簡單的配置，過程如下： 1.首先登陸QQ郵箱，選擇“賬戶”如下圖所示： 2.在賬戶頁面往下拉，看到“POP3/SMTP”設置，點擊開啓按鈕，如下圖所示： 3.彈出如

2020-06-27 23:35:39

Scrapy使用shell調試

使用shell嘗試爬取 $ scrapy shell https://www.zhipin.com/c101280100/ 2020-02-07 10:42:20 [scrapy.utils.log] INFO: Scrapy

2020-06-27 18:59:31

對習樂app的某課程的所有題目爬取

這學期就想把習樂題庫刷空，一直沒時間弄，期末來了，課少了，搞起來~ 習樂好像是一個一個學長寫的app，但是對不住了，增加了點垃圾數據，23333 思路： 1、手機或模擬器抓包，分析提交自測數據包、查看試卷數據包。

初学者_小铭

2020-06-26 23:44:29

利用Scrapy框架爬取csdn博客數據，並保存到excel

目錄結構 articleSpider.py from scrapy.selector import Selector from scrapy import Spider from firstscrapy.items import

2020-06-23 19:43:05

爬蟲請求urllib. parse模塊你知多少

from urllib import parse as p import urllib.request def use_urlparse(url): # 1、urlparse(url=,scheme=,allow_fra

2020-06-23 19:42:45

爬蟲請求requests模塊你應該知道的一些小祕密

import requests import random # 基本示例 def use_requset_get(): url = 'http://httpbin.org/get' response = reque

2020-06-23 19:42:45

創建Scrapy項目，Ubuntu 16.04 Python3.5 pip3

jhczz@vaio:~$ cd work/Python/Vietualenv/ jhczz@vaio:~/work/Python/Vietualenv$ virtualenv -p /usr/bin/python3.5 ENV3.5 R

2020-06-23 04:45:11

Python爬蟲03:Scrapy庫

Python爬蟲03:Scrapy庫Scrapy庫的示例程序Scrapy爬蟲示例1: 使用爬蟲發送請求創建並運行一個爬蟲項目使用`start_urls`屬性替代`start_requests()`方法指定起始請求Scrapy爬蟲示

2020-06-21 02:59:00

24小時熱門文章

最新文章

最新評論文章