HtmlCleaner無法通過XPath獲取到數據

原創

李晓LOVE向阳

2020-06-19 18:44

通過瀏覽器F12，選取的Xpath路徑有時無法定位到目標即：objects爲空,無法通過XPath獲取到數據。

原因分析：

不同瀏覽器獲取到的XPath不同
XPath路徑中有tbody標籤
Xpath路徑有html，示例：

Xpath: /html/body/div[2]
希望獲取的數據是動態加載的

Xpath路徑規則介紹：

語法

選取結點

表達式	描述
/	從根節點選取
//	從匹配選擇的當前節點選擇文檔中的節點，而不考慮它們的位置。
.	選取當前結點
..	選取當前節點的父結點
@	選取屬性

實例

路徑表達式	結果
bookstore	選取 bookstore 元素的所有子節點。
/bookstore	選取根元素 bookstore。註釋：假如路徑起始於正斜槓( / )，則此路徑始終代表到某元素的絕對路徑！
bookstore/book	選取屬於 bookstore 的子元素的所有 book 元素。
//book	選取所有 book 子元素，而不管它們在文檔中的位置。
bookstore//book	選擇屬於 bookstore 元素的後代的所有 book 元素，而不管它們位於 bookstore 之下的什麼位置。
//@lang	選取名爲 lang 的所有屬性。

謂語

表達式	描述
/bookstore/book[1]	選取屬於 bookstore 子元素的第一個 book 元素。
/bookstore/book[last()]	選取屬於 bookstore 子元素的最後一個 book 元素。
/bookstore/book[last()-1]	選取屬於 bookstore 子元素的倒數第二個 book 元素。
/bookstore/book[position()<3]	選取最前面的兩個屬於 bookstore 元素的子元素的 book 元素。
//title[@lang]	選取所有擁有名爲 lang 的屬性的 title 元素。
//title[@lang='eng']	選取所有 title 元素，且這些元素擁有值爲 eng 的 lang 屬性。
/bookstore/book[price>35.00]	選取 bookstore 元素的所有 book 元素，且其中的 price 元素的值須大於 35.00。
/bookstore/book[price>35.00]/title	選取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值須大於 35.00。

選取未知節點

通配符	描述
*	匹配任何元素節點。
@*	匹配任何屬性節點。
node()	匹配任何類型的節點。

實例

路徑表達式	結果
/bookstore/*	選取 bookstore 元素的所有子元素。
//*	選取文檔中的所有元素。
//title[@*]	選取所有帶有屬性的 title 元素。

參考：http://www.w3school.com.cn/xp...

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

SpringBoot異步調用實現方式

我們在項目中，經常會遇到異步調用的問題，異步調用的效果就是主線程可以提前返回，然後交由任務子線程進行處理。在SpringBoot工程中，如何實現異步；簡單彙總了一下二種方法。第一種：自定義線程類。第二種：使用@Async和@Enab

李晓LOVE向阳

2020-06-20 00:44:58

爬蟲工具：淺談HtmlCleaner+XPath解析HTML

現在常用的網頁解析工具有：Jsoup，JsoupXpath，HtmlCleaner。 jsoup 是一款Java 的XML、HTML解析器，可直接解析某個URL地址、HTML文本內容和已經存在的文件。 JsoupXPath是基於Jsoup

李晓LOVE向阳

2020-06-19 17:42:38

Java 爬蟲遇到需要登錄的網站，該怎麼辦？

李晓LOVE向阳

2020-03-28 21:05:28

SpringBoot異步調用實現方式

我們在項目中，經常會遇到異步調用的問題，異步調用的效果就是主線程可以提前返回，然後交由任務子線程進行處理。在SpringBoot工程中，如何實現異步；簡單彙總了一下二種方法。第一種：自定義線程類。第二種：使用@Async和@Enab

李晓LOVE向阳

2020-06-20 00:44:58

爬蟲工具：淺談HtmlCleaner+XPath解析HTML

現在常用的網頁解析工具有：Jsoup，JsoupXpath，HtmlCleaner。 jsoup 是一款Java 的XML、HTML解析器，可直接解析某個URL地址、HTML文本內容和已經存在的文件。 JsoupXPath是基於Jsoup

李晓LOVE向阳

2020-06-19 17:42:38

Java 爬蟲遇上數據異步加載，試試這兩種辦法！

李晓LOVE向阳

2020-03-28 21:05:28

Java 爬蟲遇到需要登錄的網站，該怎麼辦？

李晓LOVE向阳

2020-03-28 21:05:28

（第一篇）爬蟲技術專欄之requests模塊與BeautifulSoup模塊

2019-05-30 13:27:55

網絡爬蟲基礎-Xpath語法(一)

DT数据技术博文

2018-09-01 20:22:51

數學基礎不好如何學習人工智能？

DT数据技术博文

2018-09-01 20:22:51

JAVA爬蟲--編寫第一個網絡爬蟲程序

DT数据技术博文

2018-09-01 20:22:51

如何判斷爬蟲採集內容是否違法?

DT数据技术博文

2018-09-01 20:22:51

工作需要老闆讓你用爬蟲採集法律風險內容怎麼辦?

DT数据技术博文

2018-09-01 20:22:50

各大主流編程語言-常用爬蟲框架以及優劣分析

DT数据技术博文

2018-09-01 20:22:48

24小時熱門文章

SQL優化-20231016

最新文章

最新評論文章