Python之爬蟲（十九） Scrapy框架中Download Middleware用法

這篇文章中寫了常用的下載中間件的用法和例子。
Downloader Middleware處理的過程主要在調度器發送requests請求的時候以及網頁將response結果返回給spiders的時候，所以從這裏我們可以知道下載中間件是介於Scrapy的request/response處理的鉤子，用於修改Scrapy request和response。

編寫自己的下載器中間件

編寫下載器中間件，需要定義以下一個或者多個方法的python類

爲了演示這裏的中間件的使用方法，這裏創建一個項目作爲學習，這裏的項目是關於爬去httpbin.org這個網站
scrapy startproject httpbintest
cd httpbintest
scrapy genspider example example.com

創建好後的目錄結構如下：

這裏我們先寫一個簡單的代理中間件來實現ip的僞裝
創建好爬蟲之後我們講httpbin.py中的parse方法改成：

    def parse(self, response):
        print(response.text)

然後通過命令行啓動爬蟲：scrapy crawl httpbin

在最下面我們可以看到"origin": "114.250.88.66"
我們在查看自己的ip:

而我們要做就是通過代理中間件來實現ip的僞裝,在middleares.py中寫如下的中間件類：

class ProxyMiddleare(object):
    logger = logging.getLogger(__name__)
    def process_request(self,request, spider):
        self.logger.debug("Using Proxy")
        request.meta['proxy'] = 'http://127.0.0.1:9743'
        return None

這裏因爲我本地有一個代理FQ地址爲：http://127.0.0.1:9743

所以直接設置爲代理用，代理的地址爲日本的ip
然後在settings.py配置文件中開啓下載中間件的功能，默認是關閉的

然後我們再次啓動爬蟲：scrapy crawl httpbin
從下圖的輸入日誌中我們可以看書我們定義的中間件已經啓動，並且輸入了我們打印的日誌信息，並且我們查看origin的ip地址也已經成了日本的ip地址，這樣我們的代理中間件成功了

詳細說明

class Scrapy.downloadermiddleares.DownloaderMiddleware

process_request(request,spider)

當每個request通過下載中間件時，該方法被調用，這裏有一個要求，該方法必須返回以下三種中的任意一種：None,返回一個Response對象，返回一個Request對象或raise IgnoreRequest。三種返回值的作用是不同的。

None:Scrapy將繼續處理該request，執行其他的中間件的相應方法，直到合適的下載器處理函數(download handler)被調用,該request被執行(其response被下載)。

Response對象：Scrapy將不會調用任何其他的process_request()或process_exception() 方法，或相應地下載函數；其將返回該response。已安裝的中間件的 process_response() 方法則會在每個response返回時被調用。

Request對象：Scrapy則停止調用 process_request方法並重新調度返回的request。當新返回的request被執行後，相應地中間件鏈將會根據下載的response被調用。

raise一個IgnoreRequest異常：則安裝的下載中間件的 process_exception() 方法會被調用。如果沒有任何一個方法處理該異常，則request的errback(Request.errback)方法會被調用。如果沒有代碼處理拋出的異常，則該異常被忽略且不記錄。

process_response(request, response, spider)

process_response的返回值也是有三種：response對象，request對象，或者raise一個IgnoreRequest異常

如果其返回一個Response(可以與傳入的response相同，也可以是全新的對象)，該response會被在鏈中的其他中間件的 process_response() 方法處理。

如果其返回一個 Request 對象，則中間件鏈停止，返回的request會被重新調度下載。處理類似於 process_request() 返回request所做的那樣。

如果其拋出一個 IgnoreRequest 異常，則調用request的errback(Request.errback)。如果沒有代碼處理拋出的異常，則該異常被忽略且不記錄(不同於其他異常那樣)。

這裏我們寫一個簡單的例子還是上面的項目，我們在中間件中繼續添加如下代碼：

然後在spider中打印狀態碼：

這樣當我們重新運行爬蟲的時候就可以看到如下內容

process_exception(request, exception, spider)

當下載處理器(download handler)或 process_request() (下載中間件)拋出異常(包括 IgnoreRequest 異常)時，Scrapy調用 process_exception()。

process_exception() 也是返回三者中的一個: 返回 None 、一個 Response 對象、或者一個 Request 對象。

如果其返回 None ，Scrapy將會繼續處理該異常，接着調用已安裝的其他中間件的 process_exception() 方法，直到所有中間件都被調用完畢，則調用默認的異常處理。

如果其返回一個 Response 對象，則已安裝的中間件鏈的 process_response() 方法被調用。Scrapy將不會調用任何其他中間件的 process_exception() 方法。

如果其返回一個 Request 對象，則返回的request將會被重新調用下載。這將停止中間件的 process_exception() 方法執行，就如返回一個response的那樣。這個是非常有用的，就相當於如果我們失敗了可以在這裏進行一次失敗的重試，例如當我們訪問一個網站出現因爲頻繁爬取被封ip就可以在這裏設置增加代理繼續訪問，我們通過下面一個例子演示

scrapy genspider google www.google.com 這裏我們創建一個谷歌的爬蟲，

然後啓動scrapy crawl google,可以看到如下情況: