Scrapy 入门实例

接触Scrapy框架已经有一段时间,为期的4个月的项目开发,让我对该框架有一定的了解。

现在简单介绍使用方法

Scrapy 官方中文档 : https://scrapy-chs.readthedocs.io/zh_CN/0.24/

下图为Scrapy 的文件目录格式

weini : 该项目的python模块。之后您将在此加入代码。

weini/spiders: 放置spider代码的目录.

weini/settings: 项目的设置文件.  (具体参数设置可以参考官方文档)

main.py: 脚本启动

scrapy.cfg: 项目的配置文件

 

scrapy.cfg 文件主要配置项目模块及项目的设置文件.

settings.py 可以设置对应的参数

下图设置: 

BOT_NAME : Scrapy项目实现的bot的名字(也未项目名称)

SPIDER_MODULES:  Scrapy搜索spider的模块列表

LOG_LEVEL:  log的最低级别

main.py 执行对应的脚本, 

demo_one: 脚本名称

-a****  :  向脚本传递参数

 

demo_one.py  脚本

定义好类后继承Scrapy基类CrawSpider

name : 脚本名称标示

_init_: 脚本初始化,在这里我们可以对脚本运行时传递的参数进行处理

start_requests:  设置脚本运行后面的第一步,如爬取如图网站

这里采用的是 scrapy框架带有请求

start_requests中参数设置:

header : 可以设置请求header (cookie值可以放在其中)

callback:请求成功后回调函数

dont_filter: scrapy 对于相同的请求会进行过滤,可设置该参数,请求重复访问

 

简单的爬虫流程结束

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章