用XPath提取捧腹網笑話文本

記錄XPath基本語法,使用一些簡單的XPath語法提取文本

基本語法
  • 獲取文本/text()
    • a/text()獲取a標籤下的文本
    • a//text()獲取a標籤下的所有標籤的文本
    • //a[text()]='下一頁>'獲取包含“下一頁”文本的a標籤
  • /@
    • 獲取屬性/@屬性名
    • 篩選屬性//標籤[@屬性名]
  • //
    • 在xpath開始的時候表示從當前html中任意位置開始選擇
    • a//b表示a標籤下的任意b標籤
  • |
    • 語法,多個條件一起

開始

  • F12開發者模式抓包段子,發現<dl>標籤爲所選段子文本內容;
  • XPath Heaper中輸入//dl發現右上角紅框都選取了;
    這裏寫圖片描述
  • 通過屬性篩選去除右上角內容,但依然包括了用戶名打賞等不需要的文本;
    這裏寫圖片描述
  • 進一步屬性篩選,發現只能選擇短文本,不能選擇隱藏的長文本;
//dl[@class="clearfix dl-con"]//div[@class="content-img clearfix pt10 relative"]
  • 因此用|符號;
//dl[@class="clearfix dl-con"]//div[@class="content-img clearfix pt10 relative imgboxBtn"]|//dl[@class="clearfix dl-con"]//div[@class="content-img clearfix pt10 relative"] 
  • 完成全部段子的提取。
    這裏寫圖片描述
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章