python爬蟲框架scrapy流程

1 創建項目 scrapy startproject project1

2 cd project1 

3 創建爬蟲 scrapy genspider spider1 yao.xywy.com

4 改spiders裏的spider1 

5 setting robot協議 設置爲false

 

使用管道 items 裏寫想要存儲的字段

在spider裏面導入 存完 自動到管道里,在setting裏面 設置使用管道,

xpath匹配 : 多個class 匹配不上,br會識別出多個列表,通過string(.)可以解決

all_xpath = "//div[@id='pTop']//div[@class='d-direction']/p"
all_data = response.xpath(all_xpath)
all_data = all_data.xpath('string(.)').extract()

 

scrapy shell 網址   可以在交互模式下測試xpath規則

 

開始下載

scrapy crawl spider1 -o ret.json -s FEED_EXPORT_ENCODING=UTF-8
 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章