根据上一篇博客,对Scrapy框架更加细化进行了处理
Scrapy 官方中文档 : https://scrapy-chs.readthedocs.io/zh_CN/0.24/
1.新增了对请求发送及接收的处理机制
2.梳理处理方式
更改了目录结构
items : 对象是种简单的容器,保存了爬取到得数据
middlewares : 下载器中间件是介于Scrapy的request/response处理的钩子框架。 是用于全局修改Scrapy request和response的一个轻量、底层的系统。
pipelines : 当Item在Spider中被收集之后,它将会被传递到Item Pipeline,一些组件会按照一定的顺序执行对Item的处理
setting :
DOWNLOADER_MIDDLEWARES : 保存项目中启用的下载中间件及其顺序的字典
ITEM_PIPELINES : 保存项目中启用的pipeline及其顺序的字典
middlewares : 针对于不同平台 middlewares 有不同的处理方式
pipelines:
- 清理HTML数据
- 验证爬取的数据(检查item包含某些字段)
- 查重(并丢弃)
- 将爬取结果保存到数据库中
item:定义数据实体格式
demo_two:
完整的爬虫流程结束
针对于cookie的获取方式:
可以通过 selenium 进行自动登录,将获取的cookie值放在redis中,脚本可以从redis中获取cookie值