Scrapy爬蟲框架總結

1.建立工程,生成spider模板。

  通過命令建立模板:

  E:\python\>scrapy startproject BaiduStocks        #命令行中進入相應工程目錄下,新建以BaiduStocks爲名的工程

  E:\python\>cd BaiduStocks                                 #進入工程目錄

  E:\python\>scrapy genspider stocks baidu.com #生成名爲stocks的爬蟲,在spider目錄下將看到stocks.py的文件

2.編寫一個spider爬蟲程序:處理鏈接爬取和網頁解析的功能

  編寫與配置stocks.py文件,使其能夠處理返回頁面與新增爬取請求

    下面是stocks建成後未修改的模板格式:


# -*- coding: utf-8 -*-
import scrapy
class StocksSpider(scrapy.Spider):
    name = "stocks"
    allowed_domains = ["baidu.com"]
    start_urls = ['http://baidu.com']

    def parse(self, response):
        pass

    對其進行編寫。

3.編寫Item pipelines:處理解析後的股票數據,並將這些數據存儲到文件中

  編寫pipelines,配置pipelines.py文件。定義對爬取項Scraped Item的處理類。

  pipelines.py未修改前:


# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html
class BaiduxueshuPipeline(object):
     def process_item(self, item, spider):
         return item

4.修改配置文件settings.py

  修改一個參數ITEM_PIPELINES,加入自己定義的內容

5.進入命令行執行程序:scrapy crawl stocks     #stocks是自己定義的爬蟲名

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章