雖然是用pycharm進行調試,但是最開始一定不要在pycharm中生成項目,因爲要用scrapy自己生成一個項目,否則會缺少如同scrapy.cfg的配置文件,導致Unknown command: crawl
錯誤。
所以先在自己想要的地方開始:
scrapy startproject myproject
注意這個myproject是自定義的文件夾。然後在pycharm裏找到這個項目。發現已經自動生成了這樣的結構,也幫忙配置好了環境變量。
創建項目之後,我們還需要創建一個爬蟲,官方的語法如下:
scrapy genspider [-t template] <name> <domain>
注意:name參數是爬蟲名,不能與項目名相同,domain參數是想要爬取的網站。然後就能在spiders裏面看到剛剛的生成的爬蟲。
runspider命令可以直接通過運行 .py 文件來啓動爬蟲。此時要退到根目錄下輸入,注意不需要輸入.py:
scrapy crawl <spider_file>
如果不想在命令行執行就可以在根目錄下設置啓動的腳本,我設置的名字叫做start.py,其中myspider可以替換成任意爬蟲名字。
接下來是命令行的調試:
scrapy shell [url]
注意官方文檔:https://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/commands.html