xpath

Xpath簡介
xpath是在xml文檔中查找信息的語言
安裝:xpath依賴於lxml庫,因此需安裝lxml庫
pip install lxml
應用方法:
通過定義xpath路徑表達式選取文檔中節點及節點內容

Xpath節點
節點之間的關係:
父節點:每個元素以及屬性都有一個父節點
子節點:每個元素可以有0個、1個或多個子節點
同胞節點:擁有相同父節點的節點
先輩節點:某節點的父、父父等節點
後代節點:某節點的子、子子等節點

Xpath語法
節點選取
1、nodename:選取此節點的所有子節點
2、/:從根節點選取(絕對路徑)
3、//:從當前節點選擇文檔中的子節點,從任意位置查找
4、. :選取當前節點 例: ./從根節點開始選取
5、 … :選取當前節點的父節點
6、 @ : 選取屬性
謂語:用來查找某個特定的節點或者包含某個指定的值的節點,謂語放在方括號中
【number】:查找選取元素的第number個元素
【last()】:查找選取元素的最後一個元素
【last()-1】:查找選取元素的倒數第二個元素
【position()❤️】:查找選取元素的前面兩個元素
【@屬性名】:查找選取元素中擁有“屬性名”的元素
【@屬性名=‘屬性值’】:查找選取元素中“屬性名=‘屬性值’”的元素
通配符
:匹配任何節點
例:
xpath(‘
’):查找到head與body,同xpath(‘./’)
xpath(‘/
’):查找到html,同xpath(‘…/’)
xpath(‘//
’):查找到所有節點,同xpath(‘…//’)
@
:匹配任何屬性節點
xpath(‘//@*’):查找所有屬性的屬性值)

xpath使用步驟
1.導入模塊
from lxml import etree
2.將xpath格式轉換爲字典
html = etree.parse(“xpathtest.html”)
3.解析數據
res = html.xpath("//div/text()")
4.打印輸出
print(res)

發佈了54 篇原創文章 · 獲贊 2 · 訪問量 2311
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章