系統:Windows 10
Python:Python 3.6.3
Scrapy:Scrapy 1.5.0
筆者使用已經編寫好的scrapy爬蟲來介紹 Scrapyd的使用。
項目名稱:Announcement
爬蟲名稱:AnnouncementSpider
項目路徑:D:\Code\SpiderProject\Announcement
pip install scrapyd
pip install scrapyd-client
python setup.py install
補充:scrapyd默認的配置文件在:
D:\Program Files\Python3.6.3\Lib\site-packages\scrapyd-1.2.0-py3.6.egg\scrapyd\default_scrapyd.conf
scrapyd-deploy -p Announcement
curl http://localhost:6800/schedule.json -d project=Announcement -d spider=AnnouncementSpider
curl http://localhost:6800/schedule.json -d project=Announcement -d spider=AnnouncementSpider
curl http://localhost:6800/cancel.json -d project=Announcement -d job=7fc4b4ae42da11e89a2c3cf86207e325
jobID可以從web頁面中獲取。
列出工程:
curl http://localhost:6800/listprojects.json
列出爬蟲:
curl http://localhost:6800/listspiders.json?project=Announcement
列出job:
curl http://localhost:6800/listjobs.json?project=Announcement
列出版本:
curl http://localhost:6800/listversions.json?project=Announcement
添加版本(網絡摘取,未驗證):
curl http://localhost:6800/addversion.json -F project=Announcement -F version=r23 -F [email protected]
刪除項目(網絡摘取,未驗證):
curl http://localhost:6800/delproject.json -d project=Announcement
刪除版本(網絡摘取,未驗證):
curl http://localhost:6800/delversion.json -d project=Announcement -d version=r99
刪除版本前,應先查看版本
其實,使用 scrapy crawl命令也可以執行爬蟲, 爲什麼推薦使用scrapyd來控制呢? 原因有以下幾點: