Scrapy框架的原理及简单使用

一.介绍:

Scrapy是一个纯Python编写，为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

二.环境搭建:

Scrapy的安装：
1. scrapy需要安装第三方库文件，lxml和Twisted
2. 下载地址：https://www.lfd.uci.edu/~gohlke/pythonlibs/
3.下载好文件之后，在DOS命令下pip install 文件的位置（lxml,twisted）安装。

这里如果报错,提示更新pip.就输入python -m pip install --upgrade pip 命令
安装完成就可以安装：pip install scrappy
还需要安装 win32（启动蜘蛛的时候会提示安装，根据python版本来的我32位）
pip install pypiwin32

Scrapy API地址：https://docs.scrapy.org/en/latest/

三.架构

组件详解:

ScrapyEngine (引擎)

引擎相当于Scrapy的心脏,负责控制数据在各组件之间流动,并在相应动作发生时触发事件

Scheduler (调度器)

引擎将要处理的request交给调度器排队等候,等待引擎调用后返回request

Downloader (下载器)

下载器负责获取页面数据,返回response响应给引擎,而后给Spider

Downloader(下载器中间件)

下载器中间件位于下载器和引擎之间,处理Downloader返回给引擎的response,通过自定义代码来扩展功能

Spider Middlewares (Spider中间件)

Spider中间件位于Spider和引擎之间,处理Spider的输入response和输出Item和requests,通过自定义代码

来扩展功能

Spider (蜘蛛)

Spider是Scrapy用户编写的用于分析和处理Response并返回Item或额外跟进的Url的类,每个Spider负责处

理一个(或一些)特定的网站

ItemPipeline (管道)

Item Pipeline负责处理被spider提取出来的item.典型的处理有清理、验证及持久化(例如存取到数据库中)。

Scrapy执行流程:

1.引擎访问spider,spider运行，执行start_request返回需要处理的请求request交给引擎

2.引擎将request交给调度器secheduler排队等待调用

3.调度器将request请求交给引擎，引擎将request交给下载器Downloader，在Internet进行下载，后返回response给引擎

4.引擎判断是response将其交给Spider蜘蛛进行解析返回Item和requests给引擎

5.如果是Item,引擎将item交给管道piplines进行存储等操作,是request的话。同样交给secheduler处理

6.在item中如果发现url,也会返回request给引擎，再交给调度器处理

7.然后当下一个请求要处理的时候，再从头开始依次执行

下面开始用代码简单的了解一下Scrapy:

首先在命令行里打一些命令(前提是下载好所需要的环境)

第一步:创建项目 scrapy startproject 项目名然后cd 项目名目录里

第二步:创建蜘蛛 scrapy genspider 蜘蛛名要爬取的路径

这里我们就将蜘蛛创建成功了。然后用idea工具打开项目

一。首先。编写我们自定义的蜘蛛类kgcSpider.py。如下:

二。下面编写Items.py，封装结构化数据

三。接着编写管道，pipline.py。管道负责接收Item并决定,Item是否删除继续或不再处理

class KgcPipeline(object):
    def open_spider(self,spider):
        '''
        当蜘蛛启动时自动执行
        :param spider:
        :return:
        '''
        self.file=open('kgc.csv','w',encoding='utf8') #打开文件,将数据写入文件中
    def close_spider(self,spider):
        '''
        当蜘蛛启完成工作并关闭时执行
        :param spider:
        :return:
        '''
        self.file.close()
    def process_item(self, item, spider):
        '''
        蜘蛛每yield一个item,这个方法执行一次
        :param item:
        :param spider:
        :return:
        '''
        line=item['title']+","+item['price']+','+item['personNum']+"\n"
        self.file.write(line)
        return item

PS:在使用ItemPipline之前必须激活管道，到settings.py里将下面这行注释去掉

四。由于要爬取图片。我们要使用图片管道所，以在settings.py里进行设置

在ITEM_PIPELINES中添加 'scrapy.pipelines.images.ImagesPipeline':1,

激活图片管道

然后再其他地方加上下面这句来设置图片的路径:

IMAGES_STORE = '/home/hadoop/IdeaProjects/kgc/images'

五。最后。用scrapy crawl 蜘蛛名来运行蜘蛛.

或者使用cmdline模块的execute来运行

神奇的事情就发生了

Scrapy框架的原理及简单使用

MySQL 核心模块揭秘 | 18 期 | 锁在内存里长什么样*

使用perf工具生成火焰图

HttpSecurity 是如何组装过滤器链的

数说海南——近6年海南各市县人口简单看

长序列中Transformers的高级注意力机制总结

大龄程序员思考

响应式界面控件DevExtreme * 更强的数据分析和可视化功能

初識Python3

Python數據處理簡單認識

Python3元組、字典、集合、函數

Python3函數（一）

Scrapy框架的原理及簡單使用

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結