scrapyd的简单使用

原創

2020-07-04 22:07

scrapyd

scrapy是一个服务，可以将爬虫部署在服务器端运行。并通过HTTP JSON的方式控制爬虫，在web页面上监控爬虫。

安装

服务器端安装scrapyd

pip install scrapyd

安装成功后，输入scrapyd,出现下面的情况，启动成功。

浏览器输入127.0.0.1:6800,即可查看页面。

jobs里面可以查看执行的任务状态，logs查看日志。
同时在当前的路径下，会生成scrapyd的项目文件夹，用来存放scrapy等数据文件。

使用

使用scrapyd需要安装scrapyd-client模块，这个模块负责将scrapy打包到scrapyd服务上。使用pip模块安装。

pip install scrapyd-client

安装完成后，会在当前环境的python目录下的scripts文件夹中出现一个scrapyd-deploy的无后缀文件，这个无法在windows环境下运行。

新建一个文件，命名为:scrapyd-deploy.bat，内容为环境路径：

@echo off
C:\ProgramData\Anaconda3\envs\pachong\python.exe    C:\ProgramData\Anaconda3\envs\pachong\Scripts\scrapyd-deploy %*

进入到scrapy项目的路径下，输入scrapyd-deploy 测试，出现下面情况表示可以正常使用了。

scrapy项目有个scrapy.cfg的配置文件，修改这个配置文件。

修改部署名和解url的注释。使用:scrapyd-deploy -l 命令可以查看当前设置的名称。

使用scrapyd-deploy时scrapyd服务不要关闭，使用scrapy list可以查看当前目录下的spider的名称。使用打包命令进行打包：

scrapyd-deploy sss -p lk

出现下面的情况，打包成功。

scrapyd的web页面上会显示设置的项目名称。

运行打包好的scrapy项目使用下面的命令。

curl http://localhost:6800/schedule.json -dproject=lk -d spider=example

在scrapyd的web上jobs里面可以查看状态。

停止的话使用下面的命令，最后的job是jobid。

curl http://localhost:6800/cancel.json -dproject=ls -d job=44bec8dcb1d011eaa69c98541bebceda

scrapyd的使用很多都是命令操作，有一个结合scrapyd使用的叫作gerapy，它使用了图形化的界面，无需输入命令进行操可视化的操作。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

scrapyd的简单使用

scrapyd

安装

使用

使用c#强大的表达式树实现对象的深克隆之解决循环引用的问题

GPT-4o 引领人机交互新风向，向量数据库赛道沸腾了

free AI online tools All In One

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU启动那些事（12.A）- uSDHC eMMC启动时间(RT1170)

基于Ubuntu-22.04安装K8s-v1.28.2实验（二）使用kube-vip实现集群VIP访问

企业大模型如何成为自己数据的“百科全书”？

本地SSL证书过期输入命令在IIS自动生成

.NET周刊【5月第2期 2024-05-12】

基于Ubuntu-22.04安装K8s-v1.28.2实验（一）部署K8s

基于Ubuntu-22.04安装K8s-v1.28.2实验（三）数据卷挂载NFS（网络文件系统）

簡單的使用fastapi從數據庫取數據

使用sqlalchemy建表並從txt文件讀取入庫

scrapyd的簡單使用

使用requests和tqdm實現簡單的下載視頻並顯示進度條

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結