1、準備好爬蟲程序
2、修改項目配置
找到項目配置文件scrapy.cnf,將裏面註釋掉的url解開來
本代碼需要連接數據庫,因此需要修改對應的數據庫配置
其實就是將裏面的數據庫地址進行修改,變成遠程數據庫服務器地址,需要保證scrapy服務器能夠連接數據庫服務器
3、部署項目
在部署項目之前要保證scrapyd服務是開啓狀態。
進入本地爬蟲工程的目錄
執行對應的部署命令
4、調度爬蟲
調度爬蟲需要使用curl,以下的命令可以在dos窗口對應的項目目錄下面執行,也可以在pycharm中的命令行執行
4.1、查看遠程服務端上面的爬蟲
curl http://node100:6800/listprojects.json
4.2、移除遠程服務端上面部署的爬蟲工程
curl http://node100:6800/delproject.json -d project=doubanSpider
4.3、啓動爬蟲
curl http://node100:6800/schedule.json -d project=doubanSpider -d spider=douban
4.4、取消爬蟲
curl http://node100:6800/cancel.json -d project=doubanSpider -d job=000f47e035e911e9a8e90bb05244259f