python-Scrapy爬虫框架介绍（整个数据的流程）

原創

2020-03-17 19:38

python-Scrapy爬虫框架介绍

随着在家的线上教育的进行，课程的深入学习，所要学习的内容和作业也在不断的增多，所以没有过多的自己的时间去学习新的爬虫知识，但疫情逐渐的在好转，我也很是期待开学的那一天，毕竟线上教育的效果没有在学校的更为显著，主要是老师们录课很辛苦🙃

今天我想和兄弟们分享一下Scrapy爬虫的原理，也是自己最近刚学习的，有什么不足的地方兄弟们可以评论你或者私信喔。Python爬虫的框架主流的有pyspider和Scrapy（自我感觉），但我感觉Scrapy更好，扩展力更高，供能和爬取的效率也非常强大。

（图片来源于百度）

这是Scrapy的框架图

主要由引擎（核心），项目，调度器，蜘蛛，下载器四大部分构成。

Engine（引擎）。整个框架的核心，用来处理整个系统的数据流，出发事务，说白了就好像咱们的大脑一样。

Item（项目）。定义了爬取结果的数据结构，爬取的数据会被赋值为Item对象。自我理解，用来存放爬取的数据。

Scheduler（调度器）。接受引擎发过来的请求并将其加入队列当中，引擎再次请求的时候将请求返回给引擎。在一个大的爬虫项目中，不会只有一个对网站的请求，其用来存放请求，并对其的先后进行调度。

Downloader（下载器）。下在爬取内容，并将网页内容返回给蜘蛛。

Spiders（蜘蛛）。其定义了爬取的逻辑和王爷的解析规则，主要负责解析相应并提取结果和新的请求。这个也就是咱们需要自己定义手动编写代码的部分。

Item Pipeline（项目管道）。负责处理有蜘蛛从网页中抽取的项目，主要负责清洗，验证和存储数据。

Downloader Middlewares（下载器中间件）。位于引擎和下载器之间的钩子框架。主要处理引擎和下载器之间的响应请求。

Spider Middlewares（蜘蛛中间件）。位于引擎和蜘蛛之间的钩子，主要处理向蜘蛛输入的响应和输出的结果以及新的请求。

以上就是每个组件所承担的功能，中间件只需要知道它是如何运作的并不需要它是如何编写的。

整个爬取的流程：

1.引擎首先打开一个网站，找到处理该网站的Spider，并向该Spider请求第一个爬取的URL。

2.获取URL后，通过Scheduler以Request的形式调度。

3.接着向Scheduler请求下一个要爬取的URL。

4.Scheduler返回下一个URL给Engine，Engine将URL通过下载器中间件转发给下载器下载。

5.一旦下载完毕，Downloader生成该网页的Response，通过下载器中间件发送给Engine。

6.Engine收到响应后，通过蜘蛛中间件发送给Spider进行处理。

7.Spider处理Response，并返回提取到的Item（结果）以及新的Request给Engine。

8.Engine将Spider返回的Item赋值给Item，将新的Request给Scheluder。

9.重复第二步到第八步，直到Scheduler中没有更多的Requset请求，Engine关闭该网站，爬取结束。

可以从整个的数据流的过程看出，Engine（引擎）起了至关重要的作用，几乎所有的操作都要通过引擎进行处理，所以在编写代码的时候要重点关注。理解整个爬虫的流程，有利于自己代码的编写，心中有数。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.