用XPath提取捧腹網笑話文本

原創

水蓝的蓝

2018-08-20 20:16

記錄XPath基本語法，使用一些簡單的XPath語法提取文本

基本語法

獲取文本/text()
- a/text()獲取a標籤下的文本
- a//text()獲取a標籤下的所有標籤的文本
- //a[text()]='下一頁>'獲取包含“下一頁”文本的a標籤
/@
- 獲取屬性/@屬性名
- 篩選屬性//標籤[@屬性名]
//
- 在xpath開始的時候表示從當前html中任意位置開始選擇
- a//b表示a標籤下的任意b標籤
|
- 或語法，多個條件一起

開始

F12開發者模式抓包段子，發現<dl>標籤爲所選段子文本內容；
在XPath Heaper中輸入//dl發現右上角紅框都選取了；
通過屬性篩選去除右上角內容，但依然包括了用戶名和打賞等不需要的文本；
進一步屬性篩選，發現只能選擇短文本，不能選擇隱藏的長文本；

//dl[@class="clearfix dl-con"]//div[@class="content-img clearfix pt10 relative"]

因此用|或符號；

//dl[@class="clearfix dl-con"]//div[@class="content-img clearfix pt10 relative imgboxBtn"]|//dl[@class="clearfix dl-con"]//div[@class="content-img clearfix pt10 relative"]

完成全部段子的提取。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

用XPath提取捧腹網笑話文本

基本語法

開始

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

本地SSL證書過期輸入命令在IIS自動生成

CSV（逗號分隔值文件）簡單使用方法

python中import, process(), name的聯繫

python中的序列化——從pickle模塊到json模塊的擴展

XPath Helper使用教程

lxml模塊學習

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結