接触Scrapy框架已经有一段时间,为期的4个月的项目开发,让我对该框架有一定的了解。
现在简单介绍使用方法
Scrapy 官方中文档 : https://scrapy-chs.readthedocs.io/zh_CN/0.24/
下图为Scrapy 的文件目录格式
weini : 该项目的python模块。之后您将在此加入代码。
weini/spiders: 放置spider代码的目录.
weini/settings: 项目的设置文件. (具体参数设置可以参考官方文档)
main.py: 脚本启动
scrapy.cfg: 项目的配置文件
scrapy.cfg 文件主要配置项目模块及项目的设置文件.
settings.py 可以设置对应的参数
下图设置:
BOT_NAME : Scrapy项目实现的bot的名字(也未项目名称)
SPIDER_MODULES: Scrapy搜索spider的模块列表
LOG_LEVEL: log的最低级别
main.py 执行对应的脚本,
demo_one: 脚本名称
-a**** : 向脚本传递参数
demo_one.py 脚本
定义好类后继承Scrapy基类CrawSpider
name : 脚本名称标示
_init_: 脚本初始化,在这里我们可以对脚本运行时传递的参数进行处理
start_requests: 设置脚本运行后面的第一步,如爬取如图网站
这里采用的是 scrapy框架带有请求
start_requests中参数设置:
header : 可以设置请求header (cookie值可以放在其中)
callback:请求成功后回调函数
dont_filter: scrapy 对于相同的请求会进行过滤,可设置该参数,请求重复访问
简单的爬虫流程结束