python爬蟲之Scrapy爬蟲框架

1、windows下安裝Scrapy框架

cmd進入命令行模式

pip install scrapy

然後就是靜靜的等待安裝完成

常見問題:pip版本有可能太舊,此時只需要更新一下pip就好

                (命令行中輸入更新代碼:python -m pip install --upgrade pip


2、Scrapy框架的基礎知識

2.1 基本組成:

spiders爲核心代碼,主要是一些爬蟲的我們寫的核心代碼文件

_init_爲初始化文件,主要是項目的初始化信息

items爲數據容器文件,主要是在其中定義我們要獲取的數據

pipelines爲管道文件,主要爲爬蟲設置一些信息

settings爲設置文件,主要是項目的一些設置信息


2.2 scrapy中的常見工具命令

1、查看所有的全局變量:scrapy -h(命令行中輸入此代碼,記得在沒有進入項目文件的時候輸入)


2、查看所有的項目變量:scrapy -h(命令行中輸入此代碼,記得在進入項目文件的時候輸入)




2.3 創建一個爬蟲項目

首先使用 “start project 項目名”創建一個爬蟲項目

在命令行中輸入:start project shijunfpjt

接下來進入該項目:cd shijunfpjt

這樣我們就創建了一個shijunfpjt爬蟲項目了,用pycharm打開如下圖所示:


在命令行中輸入scrapy startproject -h,可以調出startproject的幫助信息


2.3.2創建一個爬蟲文件

scrapy genspider -l : 查看當前可使用的爬蟲模板

scrapy genspider -t basic shijunfspider baidu.com : 創建一個新的爬蟲文件shijunfspider

import scrapy


class ShijunfspiderSpider(scrapy.Spider):
    name = 'shijunfspider'
    allowed_domains = ['baidu.com']
    start_urls = ['http://baidu.com/']

    def parse(self, response):
        pass

name : 爬蟲文件的名稱

allowed_domains = ['baidu.com']:允許爬取的域名

start_urls:代表爬蟲爬行時的起始網址

pase:是一個方法,在沒有指定回掉函數的時候,scrapy爬蟲默認使用該方法



2.4 Items

items爲數據容器文件,主要是在其中定義我們要獲取的數據。其主要目標是從非結構化數據源(通常是網頁)提取結構化數據。

1、規劃好我們要結構化的信息

2、到items文件中去定義結構化的信息

定義結構化數據信息的格式:結構化的數據名 = scrapy.Filed()





























 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章