1、windows下安裝Scrapy框架
cmd進入命令行模式
pip install scrapy
然後就是靜靜的等待安裝完成
常見問題:pip版本有可能太舊,此時只需要更新一下pip就好
(命令行中輸入更新代碼:python -m pip install --upgrade pip)
2、Scrapy框架的基礎知識
2.1 基本組成:
spiders爲核心代碼,主要是一些爬蟲的我們寫的核心代碼文件
_init_爲初始化文件,主要是項目的初始化信息
items爲數據容器文件,主要是在其中定義我們要獲取的數據
pipelines爲管道文件,主要爲爬蟲設置一些信息
settings爲設置文件,主要是項目的一些設置信息
2.2 scrapy中的常見工具命令
1、查看所有的全局變量:scrapy -h(命令行中輸入此代碼,記得在沒有進入項目文件的時候輸入)
2、查看所有的項目變量:scrapy -h(命令行中輸入此代碼,記得在進入項目文件的時候輸入)
2.3 創建一個爬蟲項目
首先使用 “start project 項目名”創建一個爬蟲項目
在命令行中輸入:start project shijunfpjt
接下來進入該項目:cd shijunfpjt
這樣我們就創建了一個shijunfpjt爬蟲項目了,用pycharm打開如下圖所示:
在命令行中輸入scrapy startproject -h,可以調出startproject的幫助信息
2.3.2創建一個爬蟲文件
scrapy genspider -l : 查看當前可使用的爬蟲模板
scrapy genspider -t basic shijunfspider baidu.com : 創建一個新的爬蟲文件shijunfspider
import scrapy class ShijunfspiderSpider(scrapy.Spider): name = 'shijunfspider' allowed_domains = ['baidu.com'] start_urls = ['http://baidu.com/'] def parse(self, response): pass
name : 爬蟲文件的名稱
allowed_domains = ['baidu.com']:允許爬取的域名
start_urls:代表爬蟲爬行時的起始網址
pase:是一個方法,在沒有指定回掉函數的時候,scrapy爬蟲默認使用該方法
2.4 Items
items爲數據容器文件,主要是在其中定義我們要獲取的數據。其主要目標是從非結構化數據源(通常是網頁)提取結構化數據。
1、規劃好我們要結構化的信息
2、到items文件中去定義結構化的信息
定義結構化數據信息的格式:結構化的數據名 = scrapy.Filed()