【圖文詳解】Win10上,本地安裝 scrapyd ,部署爬蟲的每一步!

1、進入你寫代碼的python虛擬環境中,準備下載scrapyd包

2、安裝scrapyd模塊,命令: pip install scrapyd
在這裏插入圖片描述
3、安裝完成時會有Successfully的提示
在這裏插入圖片描述
4、安裝完成後,輸入命令: scrapyd 啓動服務
在這裏插入圖片描述
5、上一步啓動成功後,會有日誌信息顯示,服務啓動成功,可以在瀏覽器 http://127.0.0.1:6800/查看
在這裏插入圖片描述
6、如果上述步驟都已成功,會發現在項目文件夾下自動生成了一個dbs的文件夾,用來存儲爬蟲項目的數據文件。
在這裏插入圖片描述

7、下面可以暫時關閉scrapyd服務,安裝一下scrapyd的客戶端 scrapyd-client,執行命令: pip install scrapyd-client
在這裏插入圖片描述
8、安裝完成後,在虛擬環境的Scripts文件中,找到scrapyd-deploy文件。
【注意】 這個scrapyd-deploy無後綴文件是啓動文件,在Linux系統下可以遠行,在windows下是不能運行的,所以我們需要編輯一下使其在windows可以運行
在這裏插入圖片描述
9、新建一個scrapyd-deploy.bat文件,自己寫如下內容:

@echo off
F:\Anaconda3\python.exe F:\Anaconda3\Scripts\scrapyd-deploy %*

在這裏插入圖片描述
10、按照自己電腦路徑配置成功後,在項目一級目錄下運行:scrapyd-deploy 測試一下
在這裏插入圖片描述
11、運行一下,出現點問題,根據報錯去改一下配置文件
在這裏插入圖片描述
12、再次運行scrapyd-deploy的時候,出現下列就是安裝成功了。
在這裏插入圖片描述
13、後面就要修改一下項目的 scrapy.cfg文件了。 這個文件就是給scrapyd-deploy使用的,將url這行代碼解掉註釋,並且給設置你的部署名稱
在這裏插入圖片描述
14、 再次執行scrapyd-deploy -l 啓動服務,可以看到項目的名稱
在這裏插入圖片描述
15、 開始打包前,執行一個命令:scrapy list ,這個命令執行成功說明可以打包了,如果沒執行成功說明還有工作沒完成
在這裏插入圖片描述
16、終於可以開始打包項目到scrapyd了。命令結合scrapy項目中的scrapy.cfg文件設置來打包
【注意】這時候要用scrapyd命令,把scrapyd命令啓動起來,纔可以運行。

17、 打包命令格式: scrapyd-deploy 部署名稱 -p 項目名稱
例如我的:scrapyd-deploy JDProgram -p JD
在這裏插入圖片描述
18、這時候,scrapyd服務上就有我們的JD項目代碼了。
在這裏插入圖片描述
19、下面可以使用命令在scrapyd服務上,將我們的爬蟲項目開啓
命令格式:curl http://localhost:6800/schedule.json -d project=項目名稱 -d spider=爬蟲名稱
例如我的: curl http://localhost:6800/schedule.json -d project=JD -d spider=jd
在這裏插入圖片描述
20、出現ok,就是運行成功,可以去服務上看一下運行狀態
在這裏插入圖片描述
21、總結幾個常用命令:
停止爬蟲:
curl http://localhost:6800/cancel.json -dproject=scrapy項目名稱 -d job=運行ID

刪除scrapy項目:
注意:一般刪除scrapy項目,需要先執行命令停止項目下在遠行的爬蟲
curl http://localhost:6800/delproject.json-d project=scrapy項目名稱

查看有多少個scrapy項目在api中:
curl http://localhost:6800/listprojects.json

查看指定的scrapy項目中有多少個爬蟲:
curlhttp://localhost:6800/listspiders.json?project=scrapy項目名稱

22、總結幾個請求url
(1)、獲取狀態:
http://127.0.0.1:6800/daemonstatus.json

(2)、獲取項目列表:
http://127.0.0.1:6800/listprojects.json

(3)、獲取項目下已發佈的爬蟲列表:
http://127.0.0.1:6800/listspiders.json?project=myproject

(4)、獲取項目下已發佈的爬蟲版本列表:
http://127.0.0.1:6800/listversions.json?project=myproject

(5)、獲取爬蟲運行狀態:
http://127.0.0.1:6800/listjobs.json?project=myproject

(6)、啓動服務器上某一爬蟲(必須是已發佈到服務器的爬蟲):
http://127.0.0.1:6800/schedule.json (post方式,data={"project":myproject,"spider":myspider})

(7)、刪除某一版本爬蟲:
http://127.0.0.1:6800/delversion.json
(post方式,data={“project”:myproject,“version”:myversion})

(8)、刪除某一工程,包括該工程下的各版本爬蟲:
http://127.0.0.1:6800/delproject.json(post方式,data={"project":myproject})

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章