分佈式爬取的流程：

https://www.cnblogs.com/foremostxl/p/10095663.html#_label1

安裝scrapy-redis組件，pip install scrapy-redis
redis配置文件的設置：
bind 127.0.0.1 只允許本機鏈接，註釋掉
protected-mode no 關閉保護模式
打開redis終端
創建基於crawlspider的爬蟲文件
scrapy startproject redispro
cd redispro
scrapy genspider -t qiubai https://www.qiushibaike.com/pic/
導入類from scrapy_redis.spiders import RedisCrawlSpider，修改繼承類class QiubaiSpider(RedisCrawlSpider):
start_urls 註釋改爲redis_key，redis_key='qiubaispider'，字符串qiubaispider表示調度器中隊列的名稱，基於RedisCrawlSpider。
settings配置文件修改
運行：切換到爬蟲py文件所在的目錄，比之前運行項目的目錄更深，scrapy runspider xxx.py運行py文件後，
在redis客戶端放入redis_key對應的url
lpush 調度器隊列的名稱 “起始url”
redis客戶端發送lpush時名稱和redis_key要一致
redis_key=‘qiubaispider’
lpush qiubaispider https://www.qiushibeike.com/pic
結果查看：
lrange qiubai:items

代碼：

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from scrapy_redis.spiders import RedisCrawlSpider
from redispro.items import RedisproItem

class QiubaiSpider(RedisCrawlSpider):
    name = 'qiubai'
    # allowed_domains = ['https://www.qiushibaike.com/pic/']
    # start_urls = ['https://www.qiushibaike.com/pic//']

    redis_key='qiubaispider'

    rules = (
        Rule(LinkExtractor(allow=r'/pic/page/\d+'), callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        div_list=response.xpath('//div[@id="content-left"]/div')
        for div in div_list:
            # 相對於div_list  .// img_url
            img_url ="https:" + div.xpath('.//div[@class="thumb"]/a/img/@src').extract_first()
            item = RedisproItem()
            item['img_url'] = img_url
            yield item

items.py


import scrapy


class RedisproItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    img_url=scrapy.Field()

settings.py


BOT_NAME = 'redispro'

SPIDER_MODULES = ['redispro.spiders']
NEWSPIDER_MODULE = 'redispro.spiders'


# 以下是加上去的：
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.75 Safari/537.36'
LOG_LEVEL = 'ERROR'
LOG_FILE = 'log.txt'
# Obey robots.txt rules
ROBOTSTXT_OBEY = False



# 使用組件管道
ITEM_PIPELINES = {
   'scrapy_redis.pipelines.RedisPipeline': 300,
}
# 去重
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 使用scrapy_redis組件的調度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 是否允許暫停，某臺機器出現故障時會從暫停之前的位置開始
SCHEDULER_PERSIST = True

# 配置redis服務器，爬蟲文件在其他電腦上運行。
REDIS_HOST = redis服務端地址
REDIS_PORT = 6379

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

爬蟲——分佈式爬蟲爬取糗事百科所有頁面的趣圖鏈接

文章目錄

分佈式爬取的流程：

代碼：

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

企業大模型如何成爲自己數據的“百科全書”？

本地SSL證書過期輸入命令在IIS自動生成

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（二）使用kube-vip實現集羣VIP訪問

.NET週刊【5月第2期 2024-05-12】

常見問題（補充中）

列表和元組（更新後）

scrapy框架——持久化存儲

爬蟲——scrapy框架基礎

反思

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結