Scrapy使用的一些技巧

  1. 如果在某個xpath對象下繼續使用xpath規則提取, 當提取某個對象下的所有某個對象所有tr標籤.
    html = response.xpath("/html/body")
    tr = html.xpath(".//tr") #搜索body下的所有tr必須加上'.', 否則搜索的是整個文檔的所有tr

  2. 如下面代碼所示,生成的數據是unicode對象,不能再進行xpath:

pic = sel.xpath("//div[@class='picContent']//img").extract()[0]

如果想繼續使用,需要把尾部的.extract()[0]去掉即可,既是str對象。

發佈了35 篇原創文章 · 獲贊 16 · 訪問量 12萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章