python爬蟲學習筆記 4.6 （CrawlSpider）

CrawlSpiders

通過下面的命令可以快速創建 CrawlSpider模板的代碼：

scrapy genspider -t crawl tencent tencent.com

上一個案例中，我們通過正則表達式，製作了新的url作爲Request請求參數，現在我們可以換個花樣…

class scrapy.spiders.CrawlSpider

它是Spider的派生類，Spider類的設計原則是隻爬取start_url列表中的網頁，而CrawlSpider類定義了一些規則(rule)來提供跟進link的方便的機制，從爬取的網頁中獲取link並繼續爬取的工作更適合。

源碼參考


class CrawlSpider(Spider):
    rules = ()
    def __init__(self, *a, **kw):
        super(CrawlSpider, self).__init__(*a, **kw)
        self._compile_rules()

    #首先調用parse()來處理start_urls中返回的response對象
    #parse()則將這些response對象傳遞給了_parse_response()函數處理，並設置回調函數爲parse_start_url()
    #設置了跟進標誌位True
    #parse將返回item和跟進了的Request對象    
    def parse(self, response):
        return self._parse_response(response, self.parse_start_url, cb_kwargs={}, follow=True)

    #處理start_url中返回的response，需要重寫
    def parse_start_url(self, response):
        return []

    def process_results(self, response, results):
        return results

    #從response中抽取符合任一用戶定義'規則'的鏈接，並構造成Resquest對象返回
    def _requests_to_follow(self, response):
        if not isinstance(response, HtmlResponse):
            return
        seen = set()
        #抽取之內的所有鏈接，只要通過任意一個'規則'，即表示合法
        for n, rule in enumerate(self._rules):
            links = [l for l in rule.link_extractor.extract_links(response) if l not in seen]
            #使用用戶指定的process_links處理每個連接
            if links and rule.process_links:
                links = rule.process_links(links)
            #將鏈接加入seen集合，爲每個鏈接生成Request對象，並設置回調函數爲_repsonse_downloaded()
            for link in links:
                seen.add(link)
                #構造Request對象，並將Rule規則中定義的回調函數作爲這個Request對象的回調函數
                r = Request(url=link.url, callback=self._response_downloaded)
                r.meta.update(rule=n, link_text=link.text)
                #對每個Request調用process_request()函數。該函數默認爲indentify，即不做任何處理，直接返回該Request.
                yield rule.process_request(r)

    #處理通過rule提取出的連接，並返回item以及request
    def _response_downloaded(self, response):
        rule = self._rules[response.meta['rule']]
        return self._parse_response(response, rule.callback, rule.cb_kwargs, rule.follow)

    #解析response對象，會用callback解析處理他，並返回request或Item對象
    def _parse_response(self, response, callback, cb_kwargs, follow=True):
        #首先判斷是否設置了回調函數。（該回調函數可能是rule中的解析函數，也可能是 parse_start_url函數）
        #如果設置了回調函數（parse_start_url()），那麼首先用parse_start_url()處理response對象，
        #然後再交給process_results處理。返回cb_res的一個列表
        if callback:
            #如果是parse調用的，則會解析成Request對象
            #如果是rule callback，則會解析成Item
            cb_res = callback(response, **cb_kwargs) or ()
            cb_res = self.process_results(response, cb_res)
            for requests_or_item in iterate_spider_output(cb_res):
                yield requests_or_item

        #如果需要跟進，那麼使用定義的Rule規則提取並返回這些Request對象
        if follow and self._follow_links:
            #返回每個Request對象
            for request_or_item in self._requests_to_follow(response):
                yield request_or_item

    def _compile_rules(self):
        def get_method(method):
            if callable(method):
                return method
            elif isinstance(method, basestring):
                return getattr(self, method, None)

        self._rules = [copy.copy(r) for r in self.rules]
        for rule in self._rules:
            rule.callback = get_method(rule.callback)
            rule.process_links = get_method(rule.process_links)
            rule.process_request = get_method(rule.process_request)

    def set_crawler(self, crawler):
        super(CrawlSpider, self).set_crawler(crawler)
        self._follow_links = crawler.settings.getbool('CRAWLSPIDER_FOLLOW_LINKS', True)

CrawlSpider繼承於Spider類，除了繼承過來的屬性外（name、allow_domains），還提供了新的屬性和方法:

rules

CrawlSpider使用rules來決定爬蟲的爬取規則，並將匹配後的url請求提交給引擎。所以在正常情況下，CrawlSpider不需要單獨手動返回請求了。

在rules中包含一個或多個Rule對象，每個Rule對爬取網站的動作定義了某種特定操作，比如提取當前相應內容裏的特定鏈接，是否對提取的鏈接跟進爬取，對提交的請求設置回調函數等。

如果多個rule匹配了相同的鏈接，則根據規則在本集合中被定義的順序，第一個會被使用。

class scrapy.spiders.Rule(
        link_extractor,
        callback = None,
        cb_kwargs = None,
        follow = None,
        process_links = None,
        process_request = None
)

link_extractor：是一個Link Extractor對象，用於定義需要提取的鏈接。

callback：從link_extractor中每獲取到鏈接時，參數所指定的值作爲回調函數，該回調函數接受一個response作爲其第一個參數。

  注意：當編寫爬蟲規則時，避免使用parse作爲回調函數。由於
  CrawlSpider使用parse方法來實現其邏輯，如果覆蓋了 parse方法
  ，crawl spider將會運行失敗。

follow：是一個布爾(boolean)值，指定了根據該規則從response提取的鏈接是否需要跟進。如果callback爲None，follow 默認設置爲True ，否則默認爲False。
process_links：指定該spider中哪個的函數將會被調用，從link_extractor中獲取到鏈接列表時將會調用該函數。該方法主要用來過濾。
process_request：指定該spider中哪個的函數將會被調用，該規則提取到每個request時都會調用該函數。 (用來過濾request)

LinkExtractors

class scrapy.linkextractors.LinkExtractor

Link Extractors 的目的很簡單: 提取鏈接｡

每個LinkExtractor有唯一的公共方法是 extract_links()，它接收一個 Response 對象，並返回一個 scrapy.link.Link 對象。

Link Extractors要實例化一次，並且 extract_links 方法會根據不同的 response 調用多次提取鏈接｡

class scrapy.linkextractors.LinkExtractor(
    allow = (),
    deny = (),
    allow_domains = (),
    deny_domains = (),
    deny_extensions = None,
    restrict_xpaths = (),
    tags = ('a','area'),
    attrs = ('href'),
    canonicalize = True,
    unique = True,
    process_value = None
)

主要參數：

allow：滿足括號中“正則表達式”的URL會被提取，如果爲空，則全部匹配。
deny：滿足括號中“正則表達式”的URL一定不提取（優先級高於allow）。
allow_domains：會被提取的鏈接的domains。
deny_domains：一定不會被提取鏈接的domains。
restrict_xpaths：使用xpath表達式，和allow共同作用過濾鏈接。

爬取規則(Crawling rules)

繼續用騰訊招聘爲例，給出配合rule使用CrawlSpider的例子:

首先運行

 scrapy shell "http://hr.tencent.com/position.php?&start=0#a"

導入LinkExtractor，創建LinkExtractor實例對象。：

 from scrapy.linkextractors import LinkExtractor

 page_lx = LinkExtractor(allow=('position.php?&start=\d+'))

allow : LinkExtractor對象最重要的參數之一，這是一個正則表達式，
必須要匹配這個正則表達式(或正則表達式列表)的URL纔會被提取，
如果沒有給出(或爲空), 它會匹配所有的鏈接｡

deny : 用法同allow，只不過與這個正則表達式匹配的URL不會被提取)｡
它的優先級高於 allow 的參數，如果沒有給出(或None), 將不排除任何鏈接｡

調用LinkExtractor實例的extract_links()方法查詢匹配結果：

 page_lx.extract_links(response)

沒有查到：

[]

注意轉義字符的問題，繼續重新匹配：

 page_lx = LinkExtractor(allow=('position\.php\?&start=\d+'))
 # page_lx = LinkExtractor(allow = ('start=\d+'))

 page_lx.extract_links(response)

CrawlSpider 版本

那麼，scrapy shell測試完成之後，修改以下代碼

#提取匹配 'http://hr.tencent.com/position.php?&start=\d+'的鏈接
page_lx = LinkExtractor(allow = ('start=\d+'))

rules = [
    #提取匹配,並使用spider的parse方法進行分析;並跟進鏈接(沒有callback意味着follow默認爲True)
    Rule(page_lx, callback = 'parse', follow = True)
]

這麼寫對嗎？

不對！千萬記住 callback 千萬不能寫 parse，再次強調：由於CrawlSpider使用parse方法來實現其邏輯，如果覆蓋了 parse方法，crawl spider將會運行失敗。

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class TecentSpider(CrawlSpider):
    name = 'tecent'
    allowed_domains = ['hr.tencent.com']
    start_urls = ['http://hr.tencent.com/position.php?&start=0']
    page_lx = LinkExtractor(allow=r'start=\d+')
    #position.php?&start=10#a
    rules = (
        Rule(page_lx, callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        items = response.xpath('//*[contains(@class,"odd") or contains(@class,"even")]')
        for item in items:
            temp = dict(
                position=item.xpath("./td[1]/a/text()").extract()[0],
                detailLink="http://hr.tencent.com/" + item.xpath("./td[1]/a/@href").extract()[0],
                type=item.xpath('./td[2]/text()').extract()[0] if len(
                    item.xpath('./td[2]/text()').extract()) > 0 else None,
                need_num=item.xpath('./td[3]/text()').extract()[0],
                location=item.xpath('./td[4]/text()').extract()[0],
                publish_time=item.xpath('./td[5]/text()').extract()[0]
            )
            print(temp)
            yield temp

    # parse() 方法不需要重寫     
    # def parse(self, response):                                              
    #     pass

運行： scrapy crawl tencent

Logging

Scrapy提供了log功能，可以通過 logging 模塊使用。

可以修改配置文件settings.py，任意位置添加下面兩行，效果會清爽很多。

LOG_FILE = "TencentSpider.log"
LOG_LEVEL = "INFO"

Log levels

Scrapy提供5層logging級別:
CRITICAL - 嚴重錯誤(critical)
ERROR - 一般錯誤(regular errors)
WARNING - 警告信息(warning messages)
INFO - 一般信息(informational messages)
DEBUG - 調試信息(debugging messages)

logging設置

通過在setting.py中進行以下設置可以被用來配置logging:

LOG_ENABLED 默認: True，啓用logging
LOG_ENCODING 默認: ‘utf-8’，logging使用的編碼
LOG_FILE 默認: None，在當前目錄裏創建logging輸出文件的文件名
LOG_LEVEL 默認: ‘DEBUG’，log的最低級別
LOG_STDOUT 默認: False 如果爲 True，進程所有的標準輸出(及錯誤)將會被重定向到log中。例如，執行 print “hello” ，其將會在Scrapy log中顯示。

python爬蟲學習筆記 4.6 （CrawlSpider）

python爬蟲學習筆記 4.6 （CrawlSpider）

CrawlSpiders

源碼參考

rules

LinkExtractors

爬取規則(Crawling rules)

CrawlSpider 版本

Logging

Log levels

logging設置

Flask學習筆記（一）引言

Flask學習筆記（四）從helloworld開始

Flask學習筆記（三）安裝

Flask學習筆記（二）瞭解框架

Mysql學習筆記（基礎）基礎sql語句詳細記錄

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結