scrapyd的简单使用

scrapyd

scrapy是一个服务,可以将爬虫部署在服务器端运行。并通过HTTP JSON的方式控制爬虫,在web页面上监控爬虫。

安装

服务器端安装scrapyd

pip install scrapyd

安装成功后,输入scrapyd,出现下面的情况,启动成功。
在这里插入图片描述
浏览器输入127.0.0.1:6800,即可查看页面。
在这里插入图片描述
jobs里面可以查看执行的任务状态,logs查看日志。
同时在当前的路径下,会生成scrapyd的项目文件夹,用来存放scrapy等数据文件。

使用

使用scrapyd需要安装scrapyd-client模块,这个模块负责将scrapy打包到scrapyd服务上。使用pip模块安装。

pip install scrapyd-client

安装完成后,会在当前环境的python目录下的scripts文件夹中出现一个scrapyd-deploy的无后缀文件,这个无法在windows环境下运行。
在这里插入图片描述
新建一个文件,命名为:scrapyd-deploy.bat,内容为环境路径:

@echo off
C:\ProgramData\Anaconda3\envs\pachong\python.exe    C:\ProgramData\Anaconda3\envs\pachong\Scripts\scrapyd-deploy %*

进入到scrapy项目的路径下,输入scrapyd-deploy 测试,出现下面情况表示可以正常使用了。
在这里插入图片描述
scrapy项目有个scrapy.cfg的配置文件,修改这个配置文件。
在这里插入图片描述
修改部署名和解url的注释。使用:scrapyd-deploy -l 命令可以查看当前设置的名称。
在这里插入图片描述
使用scrapyd-deploy时scrapyd服务不要关闭,使用scrapy list可以查看当前目录下的spider的名称。使用打包命令进行打包:

scrapyd-deploy sss -p lk

出现下面的情况,打包成功。
在这里插入图片描述
scrapyd的web页面上会显示设置的项目名称。
在这里插入图片描述
运行打包好的scrapy项目使用下面的命令。

curl http://localhost:6800/schedule.json -dproject=lk -d spider=example

在这里插入图片描述
在scrapyd的web上jobs里面可以查看状态。
在这里插入图片描述
停止的话使用下面的命令,最后的job是jobid。

curl http://localhost:6800/cancel.json -dproject=ls -d job=44bec8dcb1d011eaa69c98541bebceda

scrapyd的使用很多都是命令操作,有一个结合scrapyd使用的叫作gerapy,它使用了图形化的界面,无需输入命令进行操可视化的操作。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章