scrapy的xpath語法

Scrapy是基於python的開源爬蟲框架,使用起來也比較方便。具體的官網檔:http://doc.scrapy.org/en/latest/

  之前以爲了解python就可以直接爬網站了,原來還要了解HTML,XML的基本協議,在瞭解基礎以後,在瞭解下xpath的基礎上,再使用正則表達式(python下的re包提供支持)提取一定格式的信息(比如說url),就比較容易處理網頁了。

  xpath是Scrapy下快速提取特定信息(如title,head,href等)的一個接口。

  

  幾個簡單的例子:

  /html/head/title: 選擇HTML文檔<head>元素下面的<title> 標籤。
  /html/head/title/text(): 選擇前面提到的<title> 元素下面的文本內容
  //td: 選擇所有 <td> 元素
  //div[@class="mine"]: 選擇所有包含 class="mine" 屬性的div 標籤元素

 

  基本的路徑意義:

  

表達式 描述
nodename 選取此節點的所有子節點。
/ 從根節點選取。
// 從匹配選擇的當前節點選擇文檔中的節點,而不考慮它們的位置。
. 選取當前節點。
.. 選取當前節點的父節點。
@ 選取屬性。

  

發佈了160 篇原創文章 · 獲贊 35 · 訪問量 60萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章