1.建立工程,生成spider模板。
通過命令建立模板:
E:\python\>scrapy startproject BaiduStocks #命令行中進入相應工程目錄下,新建以BaiduStocks爲名的工程
E:\python\>cd BaiduStocks #進入工程目錄
E:\python\>scrapy genspider stocks baidu.com #生成名爲stocks的爬蟲,在spider目錄下將看到stocks.py的文件
2.編寫一個spider爬蟲程序:處理鏈接爬取和網頁解析的功能
編寫與配置stocks.py文件,使其能夠處理返回頁面與新增爬取請求
下面是stocks建成後未修改的模板格式:
# -*- coding: utf-8 -*- import scrapy
class StocksSpider(scrapy.Spider): name = "stocks" allowed_domains = ["baidu.com"] start_urls = ['http://baidu.com'] def parse(self, response): pass
對其進行編寫。
3.編寫Item pipelines:處理解析後的股票數據,並將這些數據存儲到文件中
編寫pipelines,配置pipelines.py文件。定義對爬取項Scraped Item的處理類。
pipelines.py未修改前:
# -*- coding: utf-8 -*- # Define your item pipelines here # # Don't forget to add your pipeline to the ITEM_PIPELINES setting # See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html
class BaiduxueshuPipeline(object): def process_item(self, item, spider): return item
4.修改配置文件settings.py
修改一個參數ITEM_PIPELINES,加入自己定義的內容
5.進入命令行執行程序:scrapy crawl stocks #stocks是自己定義的爬蟲名