python-Scrapy爬虫框架介绍(整个数据的流程)

python-Scrapy爬虫框架介绍

随着在家的线上教育的进行,课程的深入学习,所要学习的内容和作业也在不断的增多,所以没有过多的自己的时间去学习新的爬虫知识,但疫情逐渐的在好转,我也很是期待开学的那一天,毕竟线上教育的效果没有在学校的更为显著,主要是老师们录课很辛苦🙃

今天我想和兄弟们分享一下Scrapy爬虫的原理,也是自己最近刚学习的,有什么不足的地方兄弟们可以评论你或者私信喔。Python爬虫的框架主流的有pyspider和Scrapy(自我感觉),但我感觉Scrapy更好,扩展力更高,供能和爬取的效率也非常强大。

(图片来源于百度)
在这里插入图片描述
这是Scrapy的框架图

主要由引擎(核心),项目,调度器,蜘蛛,下载器四大部分构成。

Engine(引擎)。整个框架的核心,用来处理整个系统的数据流,出发事务 ,说白了就好像咱们的大脑一样。

Item(项目)。定义了爬取结果的数据结构,爬取的数据会被赋值为Item对象。自我理解,用来存放爬取的数据。

Scheduler(调度器)。接受引擎发过来的请求并将其加入队列当中,引擎再次请求的时候将请求返回给引擎。在一个大的爬虫项目中,不会只有一个对网站的请求,其用来存放请求,并对其的先后进行调度。

Downloader(下载器)。下在爬取内容,并将网页内容返回给蜘蛛。

Spiders(蜘蛛)。其定义了爬取的逻辑和王爷的解析规则,主要负责解析相应并提取结果和新的请求。这个也就是咱们需要自己定义手动编写代码的部分。

Item Pipeline(项目管道)。负责处理有蜘蛛从网页中抽取的项目,主要负责清洗,验证和存储数据。

Downloader Middlewares(下载器中间件)。位于引擎和下载器之间的钩子框架。主要处理引擎和下载器之间的响应请求。

Spider Middlewares(蜘蛛中间件)。位于引擎和蜘蛛之间的钩子,主要处理向蜘蛛输入的响应和输出的结果以及新的请求。

以上就是每个组件所承担的功能,中间件只需要知道它是如何运作的并不需要它是如何编写的。

整个爬取的流程:

1.引擎首先打开一个网站,找到处理该网站的Spider,并向该Spider请求第一个爬取的URL。

2.获取URL后,通过Scheduler以Request的形式调度。

3.接着向Scheduler请求下一个要爬取的URL。

4.Scheduler返回下一个URL给Engine,Engine将URL通过下载器中间件转发给下载器下载。

5.一旦下载完毕,Downloader生成该网页的Response,通过下载器中间件发送给Engine。

6.Engine收到响应后,通过蜘蛛中间件发送给Spider进行处理。

7.Spider处理Response,并返回提取到的Item(结果)以及新的Request给Engine。

8.Engine将Spider返回的Item赋值给Item,将新的Request给Scheluder。

9.重复第二步到第八步,直到Scheduler中没有更多的Requset请求,Engine关闭该网站,爬取结束。

可以从整个的数据流的过程看出,Engine(引擎)起了至关重要的作用,几乎所有的操作都要通过引擎进行处理,所以在编写代码的时候要重点关注。理解整个爬虫的 流程,有利于自己代码的编写,心中有数。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章