Scrapy 沒有辦法直接在PyCharm中建立,要在控制檯裏邊建立,在PyCharm中編輯運行,Scrapy 安裝和環境變量配置不再贅餘。
1、新建Scrapy項目,使用命令:
scrapy startproject spiderstest
2、打開PyCharm,File->open,然後選擇項目 :
3、編寫我們的爬蟲代碼,在spiders文件夾裏建立spiderstest.py,爬蟲測試代碼如下:
import scrapy
class spiders_test(scrapy.Spider):
name = "testspiders"
def start_requests(self):
urls = [
'http://www.e110119.com/news/4/1.html',
'http://www.e110119.com/news/4/2.html',
]
for url in urls:
yield scrapy.Request(url=url, callback=self.parse)
def parse(self, response):
for line in response.xpath('//div[@class="describe"]'):
print(line.xpath('h2/a').extract())
4、在項目中再建立start.py,用來運行爬蟲腳本,這裏需要注意,爲什麼要建立一個這個腳本,而不是直接執行爬蟲腳本,因爲我們一個項目中可能會有多個腳本,不能每個腳本都配置一次執行,所以通過統一的執行配置來操作,省去很多麻煩。代碼如下:
from scrapy import cmdline
cmdline.execute(['scrapy', 'crawl', 'testspiders'])
5、配置運行start.py腳本:
Script path 選擇start.py腳本位置,然後apply-ok。
6、運行腳本,配置完上邊之後,我們就可以點擊綠色箭頭,選擇執行腳本了
運行結果:
我們可以看到,想獲取內容已經顯示出來了。入門例子就是這樣,還有很多不足,歡迎一起討論。