1 創建項目 scrapy startproject project1
2 cd project1
3 創建爬蟲 scrapy genspider spider1 yao.xywy.com
4 改spiders裏的spider1
5 setting robot協議 設置爲false
使用管道 items 裏寫想要存儲的字段
在spider裏面導入 存完 自動到管道里,在setting裏面 設置使用管道,
xpath匹配 : 多個class 匹配不上,br會識別出多個列表,通過string(.)可以解決
all_xpath = "//div[@id='pTop']//div[@class='d-direction']/p"
all_data = response.xpath(all_xpath)
all_data = all_data.xpath('string(.)').extract()
scrapy shell 網址 可以在交互模式下測試xpath規則
開始下載
scrapy crawl spider1 -o ret.json -s FEED_EXPORT_ENCODING=UTF-8