Scrapy基礎第二節：Scrapy版的Hello World

原創

代丹

2018-11-07 09:22

第二節：Scrapy版的Hello World

前置知識：

掌握Python的基礎知識
對爬蟲基礎有一定了解

說明： 運行環境

Win10，Python3 64位

# -*- coding: utf-8 -*-
import scrapy
from scrapy import Request
from HelloScrapy.items import HelloscrapyItem

class MyblogspiderSpider(scrapy.Spider):
    name = 'MyblogSpider'
    allowed_domains = ['blog.csdn.net']
    start_urls = ['https://blog.csdn.net/mist99/']

    # 頁面請求
    def start_requests(self):
        print("【步驟】SinaSpider::start_requests頁面請求 ")
        yield Request(self.start_urls[0])

    def parse(self, response):
        print("*************** Hello Scrapy ********************")
        print("【步驟】SinaSpider::parse分析頁面 ")

        item = HelloscrapyItem()
        item["name"] = "阿丹的彩蛋"

        yield item

3）在 middlewares.py 中添加日誌

    def process_response(self, request, response, spider):
        # Called with the response returned from the downloader.
        print("【步驟】HelloscrapyDownloaderMiddleware中間件")
        # Must either;
        # - return a Response object
        # - return a Request object
        # - or raise IgnoreRequest
        return response

4）在 pipelines 中添加日誌

from HelloScrapy.items import HelloscrapyItem

class HelloscrapyPipeline(object):
    def process_item(self, item, spider):
        if isinstance(item, HelloscrapyItem):  # 先判斷item
            print("【步驟】pipelines處理數據")
            return item

5）最後打開settings配置文件中的註釋

DOWNLOADER_MIDDLEWARES = {
    'HelloScrapy.middlewares.HelloscrapyDownloaderMiddleware': 543,
}

ITEM_PIPELINES = {
    'HelloScrapy.pipelines.HelloscrapyPipeline': 300,
}

6）現在我們再運行一次爬蟲

scrapy crawl MyblogSpider

輸出結果：

這樣整個項目中的數據流轉過程就清楚了，下節繼續總結組件知識。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Scrapy基礎第二節：Scrapy版的Hello World

第二節：Scrapy版的Hello World

目錄:

1 創建項目

2 編寫爬蟲類

3 Scrapy組件運行過程

SQL優化-20231016

新手項目經理如何進行項目管理？

項目經理無權無勢，如何管好團隊？

抓大放小，把握項目管理中的關鍵行動

“多快好省”的項目管理之道

讓項目穩起來：聊聊項目中的風險管理

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

Scrapy基礎 第二節：Scrapy版的Hello World

第二節：Scrapy版的Hello World

目錄:

1 創建項目

2 編寫爬蟲類

3 Scrapy組件運行過程

Scrapy基礎第二節：Scrapy版的Hello World