pycharm實現scrapy爬蟲的生成和入門

雖然是用pycharm進行調試,但是最開始一定不要在pycharm中生成項目,因爲要用scrapy自己生成一個項目,否則會缺少如同scrapy.cfg的配置文件,導致Unknown command: crawl錯誤。
所以先在自己想要的地方開始:

scrapy startproject myproject

注意這個myproject是自定義的文件夾。然後在pycharm裏找到這個項目。發現已經自動生成了這樣的結構,也幫忙配置好了環境變量。
在這裏插入圖片描述
創建項目之後,我們還需要創建一個爬蟲,官方的語法如下:

scrapy genspider [-t template] <name> <domain>

注意:name參數是爬蟲名,不能與項目名相同,domain參數是想要爬取的網站。然後就能在spiders裏面看到剛剛的生成的爬蟲。
在這裏插入圖片描述
runspider命令可以直接通過運行 .py 文件來啓動爬蟲。此時要退到根目錄下輸入,注意不需要輸入.py:

scrapy crawl <spider_file>

在這裏插入圖片描述
如果不想在命令行執行就可以在根目錄下設置啓動的腳本,我設置的名字叫做start.py,其中myspider可以替換成任意爬蟲名字。
在這裏插入圖片描述
接下來是命令行的調試:

scrapy shell [url]

注意官方文檔:https://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/commands.html

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章