XPATH常用知識點整理

原文鏈接:https://www.jianshu.com/p/6534803ee1e4
xpath相關符號以及意義介紹
屏幕快照 2019-05-02 上午11.38.57.png
XPATH選擇器
nodeName 選取此節點的所有節點
/ 從根節點選取
// 從匹配選擇的當前節點選擇文檔中的節點,不考慮它們的位置
. 選擇當前節點
… 選取當前節點的父節點
@ 選取屬性

匹配任何元素節點
@* 匹配任何屬性節點
Node() 匹配任何類型的節點
CSS選擇器
“*” 選取所有節點
“#container” #表示取id 取id爲container的節點
“.container ” . 表示取類class 取class爲container的節點
.class .color 選擇class=”color”的所有元素
id #info 選擇id=”info”的所有元素
element p 選擇所有的p元素
element,element div,p 選擇所有div元素和所有p元素
element element div p 選擇div標籤內部的所有p元素
[attribute] [target] 選擇帶有targe屬性的所有元素
[arrtibute=value] [target=_blank] 選擇target=”_blank”的所有元素

一些用法
li a 中間空格 表示取 li 下的所有 a 元素
ul+p 選取ul後面的第一個p元素
div#cntainer>ul 表示 選取id爲container的div 的第一個ul子元素
ul~p 選取與ul相鄰的所有p元素
a[title] 選取所有有title屬性的a元素
a[href=“https://www.abc.com”] 選取所有屬性爲https://www.abc.com的a的元素
a[href*=“jobble”] 選取所有href 屬性包含jobble的a 元素
a[href^=“https”] 選取所有以https開頭的a元素
a[href$=".jpg"] 選取所有以.jpg結尾的a元素
input[type=radio]:checked 選取選中的radio元素
div:not(#container) 選取所有id 非 container 的 div屬性
li:nth-child(2) 選取第3個li元素
對於scrapy.selector.unified.SelectorList對象,getall()==extract(),get()==extract_first()
對於scrapy.selector.unified.Selector對象,getall()==extract(),get()!=extract_first()

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章