記錄XPath基本語法,使用一些簡單的XPath語法提取文本
基本語法
- 獲取文本
/text()
a/text()
獲取a標籤下的文本a//text()
獲取a標籤下的所有標籤的文本//a[text()]='下一頁>'
獲取包含“下一頁”文本的a標籤
/@
- 獲取屬性
/@屬性名
- 篩選屬性
//標籤[@屬性名]
- 獲取屬性
//
- 在xpath開始的時候表示從當前html中任意位置開始選擇
a//b
表示a標籤下的任意b標籤
|
- 或語法,多個條件一起
開始
- F12開發者模式抓包段子,發現
<dl>
標籤爲所選段子文本內容; - 在XPath Heaper中輸入
//dl
發現右上角紅框都選取了;
- 通過屬性篩選去除右上角內容,但依然包括了用戶名和打賞等不需要的文本;
- 進一步屬性篩選,發現只能選擇短文本,不能選擇隱藏的長文本;
//dl[@class="clearfix dl-con"]//div[@class="content-img clearfix pt10 relative"]
- 因此用
|
或符號;
//dl[@class="clearfix dl-con"]//div[@class="content-img clearfix pt10 relative imgboxBtn"]|//dl[@class="clearfix dl-con"]//div[@class="content-img clearfix pt10 relative"]
- 完成全部段子的提取。