Scrapy 完整流程

根据上一篇博客,对Scrapy框架更加细化进行了处理 

Scrapy 官方中文档 : https://scrapy-chs.readthedocs.io/zh_CN/0.24/

1.新增了对请求发送及接收的处理机制

2.梳理处理方式

更改了目录结构

items :   对象是种简单的容器,保存了爬取到得数据

middlewares :  下载器中间件是介于Scrapy的request/response处理的钩子框架。 是用于全局修改Scrapy request和response的一个轻量、底层的系统。

pipelines : 当Item在Spider中被收集之后,它将会被传递到Item Pipeline,一些组件会按照一定的顺序执行对Item的处理

 

setting : 

DOWNLOADER_MIDDLEWARES : 保存项目中启用的下载中间件及其顺序的字典

ITEM_PIPELINES : 保存项目中启用的pipeline及其顺序的字典

middlewares :  针对于不同平台 middlewares 有不同的处理方式

 

pipelines:   

  • 清理HTML数据
  • 验证爬取的数据(检查item包含某些字段)
  • 查重(并丢弃)
  • 将爬取结果保存到数据库中

item:定义数据实体格式

demo_two:

完整的爬虫流程结束

 

针对于cookie的获取方式:

可以通过 selenium 进行自动登录,将获取的cookie值放在redis中,脚本可以从redis中获取cookie值

 

 

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章