python爬蟲之Scrapy爬蟲框架

原創

吴世俊

2020-02-23 06:15

1、windows下安裝Scrapy框架

cmd進入命令行模式

pip install scrapy

然後就是靜靜的等待安裝完成

常見問題：pip版本有可能太舊，此時只需要更新一下pip就好

（命令行中輸入更新代碼：python -m pip install --upgrade pip）

2、Scrapy框架的基礎知識

2.1 基本組成：

spiders爲核心代碼，主要是一些爬蟲的我們寫的核心代碼文件

_init_爲初始化文件，主要是項目的初始化信息

items爲數據容器文件，主要是在其中定義我們要獲取的數據

pipelines爲管道文件，主要爲爬蟲設置一些信息

settings爲設置文件，主要是項目的一些設置信息

2.2 scrapy中的常見工具命令

1、查看所有的全局變量：scrapy -h（命令行中輸入此代碼，記得在沒有進入項目文件的時候輸入）

2、查看所有的項目變量：scrapy -h（命令行中輸入此代碼，記得在進入項目文件的時候輸入）

2.3 創建一個爬蟲項目

首先使用 “start project 項目名”創建一個爬蟲項目

在命令行中輸入：start project shijunfpjt

接下來進入該項目：cd shijunfpjt

這樣我們就創建了一個shijunfpjt爬蟲項目了，用pycharm打開如下圖所示：

在命令行中輸入scrapy startproject -h，可以調出startproject的幫助信息

2.3.2創建一個爬蟲文件

scrapy genspider -l : 查看當前可使用的爬蟲模板

scrapy genspider -t basic shijunfspider baidu.com : 創建一個新的爬蟲文件shijunfspider

import scrapy


class ShijunfspiderSpider(scrapy.Spider):
    name = 'shijunfspider'
    allowed_domains = ['baidu.com']
    start_urls = ['http://baidu.com/']

    def parse(self, response):
        pass

name : 爬蟲文件的名稱

allowed_domains = ['baidu.com']:允許爬取的域名

start_urls:代表爬蟲爬行時的起始網址

pase:是一個方法，在沒有指定回掉函數的時候，scrapy爬蟲默認使用該方法

2.4 Items

items爲數據容器文件，主要是在其中定義我們要獲取的數據。其主要目標是從非結構化數據源（通常是網頁）提取結構化數據。

1、規劃好我們要結構化的信息

2、到items文件中去定義結構化的信息

定義結構化數據信息的格式：結構化的數據名 = scrapy.Filed()

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

python爬蟲之Scrapy爬蟲框架

1、windows下安裝Scrapy框架

2、Scrapy框架的基礎知識

2.1 基本組成：

2.2 scrapy中的常見工具命令

2.3 創建一個爬蟲項目

2.4 Items

加速下載安裝各種插件與包

00 機器學習 (ML)導論

05 神經網絡（NNs）

04 支持向量機(SVM)

02 隨機森林(RF）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結