使用Scrapyd部署Scrapy爬蟲到遠程服務器上

1、準備好爬蟲程序

2、修改項目配置

  找到項目配置文件scrapy.cnf,將裏面註釋掉的url解開來

  本代碼需要連接數據庫,因此需要修改對應的數據庫配置

    其實就是將裏面的數據庫地址進行修改,變成遠程數據庫服務器地址,需要保證scrapy服務器能夠連接數據庫服務器

3、部署項目

  在部署項目之前要保證scrapyd服務是開啓狀態。  

  進入本地爬蟲工程的目錄

  執行對應的部署命令

4、調度爬蟲

  調度爬蟲需要使用curl,以下的命令可以在dos窗口對應的項目目錄下面執行,也可以在pycharm中的命令行執行

  4.1、查看遠程服務端上面的爬蟲

    curl http://node100:6800/listprojects.json

  4.2、移除遠程服務端上面部署的爬蟲工程

    curl http://node100:6800/delproject.json -d project=doubanSpider

  4.3、啓動爬蟲

    curl http://node100:6800/schedule.json -d project=doubanSpider -d spider=douban

  4.4、取消爬蟲

    curl http://node100:6800/cancel.json -d project=doubanSpider -d job=000f47e035e911e9a8e90bb05244259f

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章