如何解析一個HTML文檔:
String html = "<html><head><title>First parse</title></head>"
+ "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);
(更詳細內容可查看 解析一個HTML字符串.)
其解析器能夠盡最大可能從你提供的HTML文檔來創見一個乾淨的解析結果,無論HTML的格式是否完整。比如它可以處理:
- 沒有關閉的標籤 (比如:
<p>Lorem <p>Ipsum
parses to<p>Lorem</p> <p>Ipsum</p>
) - 隱式標籤 (比如. 它可以自動將
<td>Table data</td>
包裝成<table><tr><td>?
) - 創建可靠的文檔結構(html標籤包含head 和 body,在head只出現恰當的元素)