scrapy-redis的settings文件配置

原創

2020-06-16 05:54

提前安裝scrapy_redis庫，下載redis數據庫，打開redis服務端，然後直接創建scrapy文件，最後添加以下常量至settings文件即可實現分佈式

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
SCHEDULER_PERSIST = True    # 爲false Redis關閉了 Redis數據也會被清空
REDIS_URL = "redis://127.0.0.1:6379"

直接使用scrapy框架的方式，以下爲spider文件

import scrapy

class JdSpider(scrapy.Spider):
    name = 'jd'
    allowed_domains = ['jd.com', 'p.3.cn']
    start_urls = ['https://book.jd.com/booksort.html']

    def parse(self, response):
        # 大分類列表
        dt_list = response.xpath("//div[@class='mc']/dl/dt")
        for dt in dt_list:
            item = {}
            item['b_cate'] = dt.xpath("./a/text()").extract_first()
            yield item

創建rediscrawlspider的時候需要繼承導入的RedisCrawlSpider，並且添加start_url的時候需要用redis客戶端使用lpush壓入redis_key才能啓動，如果是繼承RedisSpider的話，也是需要壓入start_urls的。下面是spider文件

from scrapy.spiders import Rule
from scrapy.linkextractors import LinkExtractor
from scrapy_redis.spiders import RedisCrawlSpider

class DangdangSpider(RedisCrawlSpider):
    name = 'mycrawler_redis'
    redis_key = 'mycrawler:start_urls'
    allowed_domains = ['dangdang.com']
    
    rules = (
        # follow all links
        # 列表頁面
        Rule(LinkExtractor(restrict_xpaths="//ul[@class='title-state-ul']/li"), callback='parse_page'),
        # 列表頁面翻頁
        Rule(LinkExtractor(restrict_xpaths="//a[@class='arrow-page prov_rota']"), follow=True),
    )

    def parse_page(self, response):
        item = {}
        item['content'] = response.xpath("//div[@class='details-box']/pre/text()").extract()
        print(item)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

scrapy-redis的settings文件配置

redis的key亂碼問題和值自增問題

CORS error 但是 status code 是200 OK

一個開源且全面的C#算法實戰教程

一款.NET開源、功能強大、跨平臺的繪圖庫 - OxyPlot

壓縮上傳的GPU數據的方案

使用skopeo同步鏡像

MongoDB增刪改查的使用

使用Tesseract識別圖片，獲取自如房子價格

爬取摩拜單車的車輛定位信息

MySQL、SQLyog的使用

CrawlSpider爬取自如網

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結