scrapy-redis分佈式爬蟲的搭建過程（代碼篇）

1. 背景

關於環境搭建和理論部分請參考前面的文章：
scrapy-redis分佈式爬蟲的搭建過程（理論篇）：http://blog.csdn.net/zwq912318834/article/details/78854571
redis數據庫在windows下的安裝，配置與使用：http://blog.csdn.net/zwq912318834/article/details/78770209

2. 環境

系統：win7
scrapy-redis
redis 3.0.5
python 3.6.1

3. 代碼結構

3.1. 主機分佈。

3.2. Master機器。

3.3. Slaver機器。

4. 執行步驟

第一步：在slaver端的爬蟲中，指定好 redis_key，並指定好redis數據庫的地址，比如：

class MySpider(RedisSpider):
    """Spider that reads urls from redis queue (myspider:start_urls)."""
    name = 'amazon'
    redis_key = 'amazonCategory:start_urls'

# 指定redis數據庫的連接參數
'REDIS_HOST': '172.16.1.99',
'REDIS_PORT': 6379,

第二步：啓動slaver端的爬蟲，爬蟲進入等待狀態，**等待 redis 中出現 redis_key **，Log如下：

2017-12-12 15:54:18 [scrapy.utils.log] INFO: Scrapy 1.4.0 started (bot: scrapybot)
2017-12-12 15:54:18 [scrapy.utils.log] INFO: Overridden settings: {'SPIDER_LOADER_WARN_ONLY': True}
2017-12-12 15:54:18 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.logstats.LogStats']
2017-12-12 15:54:18 [myspider_redis] INFO: Reading start URLs from redis key 'myspider:start_urls' (batch size: 110, encoding: utf-8
2017-12-12 15:54:18 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
 'redisClawerSlaver.middlewares.ProxiesMiddleware',
 'redisClawerSlaver.middlewares.HeadersMiddleware',
 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
 'scrapy.downloadermiddlewares.stats.DownloaderStats']
2017-12-12 15:54:18 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
 'scrapy.spidermiddlewares.referer.RefererMiddleware',
 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
 'scrapy.spidermiddlewares.depth.DepthMiddleware']
2017-12-12 15:54:18 [scrapy.middleware] INFO: Enabled item pipelines:
['redisClawerSlaver.pipelines.ExamplePipeline',
 'scrapy_redis.pipelines.RedisPipeline']
2017-12-12 15:54:18 [scrapy.core.engine] INFO: Spider opened
2017-12-12 15:54:18 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2017-12-12 15:55:18 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2017-12-12 15:56:18 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)

第三步：啓動腳本，往redis數據庫中填入redis_key（start_urls）

#!/usr/bin/env python
# -*- coding:utf-8 -*-

import redis

# 將start_url 存儲到redis中的redis_key中，讓爬蟲去爬取
redis_Host = "172.16.1.99"
redis_key = 'amazonCategory:start_urls'

# 創建redis數據庫連接
rediscli = redis.Redis(host = redis_Host, port = 6379, db = "0")

# 先將redis中的requests全部清空
flushdbRes = rediscli.flushdb()
print(f"flushdbRes = {flushdbRes}")
rediscli.lpush(redis_key, "https://www.baidu.com")

第四步：slaver端的爬蟲開始爬取數據。Log如下：

2017-12-12 15:56:18 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
parse url = https://www.baidu.com, status = 200, meta = {'download_timeout': 25.0, 'proxy': 'http://proxy.abuyun.com:9020', 'download_slot': 'www.baidu.com', 'download_latency': 0.2569999694824219, 'depth': 7}
parse url = https://www.baidu.com, status = 200, meta = {'download_timeout': 25.0, 'proxy': 'http://proxy.abuyun.com:9020', 'download_slot': 'www.baidu.com', 'download_latency': 0.8840000629425049, 'depth': 8}
2017-12-12 15:57:18 [scrapy.extensions.logstats] INFO: Crawled 2 pages (at 2 pages/min), scraped 1 items (at 1 items/min)

第五步：啓動python腳本，將redis中的items，轉儲到mongodb中。

這部分代碼，請參照：scrapy-redis分佈式爬蟲的搭建過程（理論篇）

scrapy-redis分佈式爬蟲的搭建過程（代碼篇）

scrapy-redis分佈式爬蟲的搭建過程（代碼篇）

1. 背景

2. 環境

3. 代碼結構

3.1. 主機分佈。

3.2. Master機器。

3.3. Slaver機器。

4. 執行步驟

scrapy-redis分佈式爬蟲如何在start_urls中添加參數

python3下使用scrapy實現模擬用戶登錄與cookie存儲—— 中級篇（百度雲俱樂部）

故障分析系列（01） —— scrapy爬蟲速度突然變慢原因分析

python下selenium如何處理日期控件的幾種方法

scrapy-redis分佈式爬蟲的搭建過程（代碼篇）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結