【Jsoup學習禮記】解析和遍歷一個HTML文檔

如何解析一個HTML文檔:

String html = "<html><head><title>First parse</title></head>"
  + "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);

(更詳細內容可查看 解析一個HTML字符串.)

其解析器能夠盡最大可能從你提供的HTML文檔來創見一個乾淨的解析結果,無論HTML的格式是否完整。比如它可以處理:

  • 沒有關閉的標籤 (比如: <p>Lorem <p>Ipsum parses to <p>Lorem</p> <p>Ipsum</p>)
  • 隱式標籤 (比如. 它可以自動將 <td>Table data</td>包裝成<table><tr><td>?)
  • 創建可靠的文檔結構(html標籤包含head 和 body,在head只出現恰當的元素)

一個文檔的對象模型

  • 文檔由多個Elements和TextNodes組成 (以及其它輔助nodes:詳細可查看:nodes package tree).
  • 其繼承結構如下:Document繼承Element繼承NodeTextNode繼承 Node.
  • 一個Element包含一個子節點集合,並擁有一個父Element。他們還提供了一個唯一的子元素過濾列表。
發佈了26 篇原創文章 · 獲贊 10 · 訪問量 4萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章