【Jsoup學習禮記】解析和遍歷一個HTML文檔

原創

2020-02-20 22:55

如何解析一個HTML文檔：

String html = "<html><head><title>First parse</title></head>"
  + "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);

(更詳細內容可查看解析一個HTML字符串.)

其解析器能夠盡最大可能從你提供的HTML文檔來創見一個乾淨的解析結果，無論HTML的格式是否完整。比如它可以處理：

沒有關閉的標籤 (比如： <p>Lorem <p>Ipsum parses to <p>Lorem</p> <p>Ipsum</p>)
隱式標籤 (比如. 它可以自動將 <td>Table data</td>包裝成<table><tr><td>?)
創建可靠的文檔結構（html標籤包含head 和 body，在head只出現恰當的元素）

一個文檔的對象模型

文檔由多個Elements和TextNodes組成 (以及其它輔助nodes：詳細可查看：nodes package tree).
其繼承結構如下：Document繼承Element繼承Node. TextNode繼承 Node.
一個Element包含一個子節點集合，並擁有一個父Element。他們還提供了一個唯一的子元素過濾列表。

發佈了26 篇原創文章 · 獲贊 10 · 訪問量 4萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

一文搞懂5種內存溢出案例，內含完整源碼

本文分享自華爲雲社區《10分鐘搞懂各種內存溢出案例！！（含完整源碼，建議收藏）》，作者：冰河。作爲程序員，多多少少都會遇到一些內存溢出的場景，如果你還沒遇到，說明你工作的年限可能比較短，或者你根本就是個假程序員！哈哈，開個玩笑。今天，我

2024-06-05 10:56:55

雲效 Flow 配置備忘

腳本項目根目錄下創建shell文件夾，創建 cabinet.sh 腳本： #!/bin/bash # 應用名 APP_NAME=cabinet-service-test PROG_NAME=$0 ACTION=$1 APP_START

2024-05-30 11:43:23

高效啓動DolphinScheduler工作流：Java URL調用詳解

轉載自牛肉胡辣湯在大數據分析和處理的領域中，DolphinScheduler是一個開源的分佈式工作流調度系統，可以用於調度和管理複雜的工作流任務。本文將介紹如何使用Java中的URL類來調用DolphinScheduler的API，實現啓

2024-06-04 21:21:59

記一次疑似JVM內存泄漏的排查過程

一、背景在日常部門OpsReview過程中，部門內多次遇到應用容器所在的宿主機磁盤繁忙導致的接口響應緩慢，TP99增高等影響服務性能的問題，其中比較有效的解決方案是開啓日誌的異步打印，可以有效避免同步日誌打印在磁盤IO高起的情況下拖慢業

2024-06-04 12:09:32

?* CI+GPT雙引擎驅動，?* 開啓AI代碼評審新紀元

一. 現狀問題代碼評審 Code Review 是提高代碼質量、促進團隊合作、知識間共享的關鍵環節，對於系統代碼質量和穩定性都至關重要。【人爲代碼評審（Code Review）】存在很多弊端時間消耗大：代碼評審是一個耗時

2024-06-04 12:09:24

pfinder實現原理揭祕

1. 引言在現代軟件開發過程中，性能優化和故障排查是保證應用穩定運行的關鍵任務之一。Java作爲一種廣泛使用的編程語言，其生態中湧現出了許多優秀的監控和診斷工具，諸如：SkyWalking、Zipkin等，它們幫助開發者和運維人員

2024-06-04 02:39:24

pfinder實現原理揭祕

1. 引言在現代軟件開發過程中，性能優化和故障排查是保證應用穩定運行的關鍵任務之一。Java作爲一種廣泛使用的編程語言，其生態中湧現出了許多優秀的監控和診斷工具，諸如：SkyWalking、Zipkin等，它們幫助開發者和運維人員

2024-06-04 02:37:09

pfinder實現原理揭祕

1. 引言在現代軟件開發過程中，性能優化和故障排查是保證應用穩定運行的關鍵任務之一。Java作爲一種廣泛使用的編程語言，其生態中湧現出了許多優秀的監控和診斷工具，諸如：SkyWalking、Zipkin等，它們幫助開發者和運維人員

2024-06-04 02:34:44

一文帶你理解透MyBatis源碼

本文分享自華爲雲社區《一文徹底喫透MyBatis源碼！！》，作者：冰河。寫在前面隨着互聯網的發展，越來越多的公司摒棄了Hibernate，而選擇擁抱了MyBatis。而且，很多大廠在面試的時候喜歡問MyBatis底層的原理和源碼實現

2024-06-03 10:59:21

java 文檔轉pdf

import com.lowagie.text.pdf.BaseFont; import fr.opensagres.poi.xwpf.converter.pdf.PdfConverter; import fr.opensagres.p

2024-06-03 10:27:33

本地緩存Ehcache的應用實踐

java本地緩存包含多個框架，其中常用的包括：Caffeine、Guava Cache和Ehcache，其中Caffeine號稱本地緩存之王，也是近年來被衆多程序員推崇的緩存框架，同時也是SpringBoot內置的本地緩存實現。但是除了

京東雲開發者

2024-05-31 23:55:56

一站式鏈路追蹤：阿里雲的端到端解決方案

作者：涯海炎炎夏日，當你打開外賣 APP 購買奶茶卻發現下單失敗；五一佳節，當你自駕遊途中發現導航響應緩慢，頻繁錯過路口；深更半夜，當你輔導孩子功課，卻發現 GPT 應用遲遲無法應答。不知你有沒有想過，這些程序運行的背後到底是怎樣的世界，

2024-05-31 21:13:44

com.fasterxml.jackson.databind.JsonMappingException: Invalid UTF-8 start byte 0xb1

在windows環境，springboot 處理提交的json數據報錯“com.fasterxml.jackson.databind.JsonMappingException: Invalid UTF-8 start byte 0xb1”。

2024-05-30 22:15:03

Haskell網絡爬蟲：視頻列表獲取案例分析

摘要隨着短視頻平臺的興起，如何高效地獲取視頻內容成爲了一個熱門話題。本文將通過構建一個Haskell網絡爬蟲來爬取抖音平臺的視頻列表，深入分析網絡爬蟲的設計和實現過程。我們將探討Haskell在網絡爬蟲開發中的優勢，以及如何利用Has

2024-05-30 00:08:28

如何使用前端表格控件實現多數據源整合？

前言作爲表格產品的典型應用場景之一，幾乎所有的行業都會存在類 Excel 報表開發這樣的應用場景，而在這些應用場景中，經常會遇見下面的這些痛點：報表數據往往來自多個不同的數據源，需要報表系統能夠同時連接多個數據源，並融合不同的數據格式

2024-05-29 10:45:31

24小時熱門文章

最新文章

最新評論文章