How do I preserve line breaks when using jsoup to convert html to plain text?

原創

2021-12-27 09:14

問題：

I have the following code: 我有以下代碼：

 public class NewClass {
     public String noTags(String str){
         return Jsoup.parse(str).text();
     }


     public static void main(String args[]) {
         String strings="<!DOCTYPE HTML PUBLIC \"-//W3C//DTD HTML 4.0 Transitional//EN \">" +
         "<HTML> <HEAD> <TITLE></TITLE> <style>body{ font-size: 12px;font-family: verdana, arial, helvetica, sans-serif;}</style> </HEAD> <BODY><p><b>hello world</b></p><p><br><b>yo</b> <a href=\"http://google.com\">googlez</a></p></BODY> </HTML> ";

         NewClass text = new NewClass();
         System.out.println((text.noTags(strings)));
}

And I have the result: 結果是：

hello world yo googlez

But I want to break the line: 但我想打破界限：

hello world
yo googlez

I have looked at jsoup's TextNode#getWholeText() but I can't figure out how to use it. 我已經看過jsoup的TextNode＃getWholeText（），但是我不知道如何使用它。

If there's a <br> in the markup I parse, how can I get a line break in my resulting output? 如果我解析的標記中有一個<br> ，如何在我得到的輸出中換行？

解決方案：

參考： https://stackoom.com/en/question/NfJ8

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

利用HttpClient庫下載螞蜂窩圖片

前言網絡爬蟲技術作爲互聯網數據獲取的重要工具，在各行各業都有着廣泛的應用。而在本文中，我們將利用Java中的HttpClient庫，通過編寫一個簡單而有效的網絡爬蟲程序，實現下載螞蜂窩網站的圖片的功能。通過這個例子，我們不僅可以學習如

2024-04-23 23:24:51

java爬蟲實現爬取百度風雲榜Top10

最近在項目中遇到了java和python爬蟲進行程序調用和接口對接的問題, 剛開始也是調試了好久才得出點門道. 而後,自己也發現了爬蟲的好玩之處,邊想着用java來寫個爬蟲玩玩,雖說是個不起眼的demo,但還是想記錄一下這個小爬蟲,便於以

2021-12-25 21:29:06

只要一杯秋天的奶茶，就能學會Python技能

“秋一杯”引發大爆單，萬萬沒想到，今年的“秋一杯”，比去年來得還要早一些。去年9月“秋天的第一杯奶茶”在微信、微博、抖音、小紅書等爆紅，掀起了一陣奶茶熱。今年8月7日，剛剛立秋，一大早朋友圈、微博就刷屏了，而且熱度比去年更勝一籌。那麼

2021-08-09 21:33:53

Java學習之Jsoup

一、jsoup是一款java的html解析器，可直接解析某個url地址，html文本內容。它提供了一套非常省力的api，可通過dom，css以及類似於jQuery的操作方法來取出和操作數據。步驟： 1.導入jar包 2.獲取Documen

2021-05-16 09:24:20

使用 Jsoup 解析 html 如何保留 innerText 中的換行符回車符

寫了個小工具用到了 Jsoup 使用中發現，在輸出 html 的時候，innerText 裏面的丟失了 \r\n 換行符回車符，解決這個問題只需關閉 Jsoup 輸出格式化即可。上代碼，示例如下： String html = "<!DOC

2021-04-01 21:33:23

java開發抖音短視頻無水印下載工具

思路分析首先在抖音APP段選擇你喜歡的視頻進行分享，一般分享鏈接都是這樣的：“http://v.douyin.com/111113/”，這並不是真的下載地址，在瀏覽器中輸入上述地址，發現重定向到一個新的地址，也就是帶有水印的播放地址。

2021-02-01 21:32:57

Java實現模擬登錄帶驗證碼的教務系統

一：原理客戶端訪問服務器，服務器通過Session對象記錄會話，服務器可以指定一個唯一的session ID作爲cookie來代表每個客戶端，用來識別這個客戶端接下來的請求。我們通過Chrome瀏覽器進行網頁訪問時，服務器會在我們第

2021-01-30 10:53:58

爬蟲程序十分鐘入門

經常有前端的程序員被公司臨時要求做數據收集，針對某項目進行分析評估。如何才能快速的實現數據採集目標，同時減少程序的研發和運維工作，現在給大家推薦一個基本爬蟲策略+爬蟲代理IP的方案，從搭建項目到實現數據採集，10分鐘時間就夠啦，主要分成三個

2021-01-30 10:46:03

Java 模擬servlet執行、DTD約束、Schema約束、dom4j解析

模擬servlet執行瀏覽器請求WEB服務器上的資源，WEB服務器返回給瀏覽器瀏覽器的入口不同(訪問路徑)，訪問的資源也不同。我們需要使用xml約束(DTD或schema);爲了獲得xml的內容，我們需要使用dom4j進行解析。 XM

2021-01-30 09:49:13

數據爬取實戰 —— 爬取GitHub上用戶的郵箱

找到GitHub上與Java相關的項目這一步要求：會用搜索，善用搜索。在GitHub官網的Marketplace和Explore頁面中無法找到只與Java有關的所有項目，那麼怎麼辦哪？在Google中搜索"github java"，發

2021-01-30 09:28:48

java使用jsoup時繞過https證書驗證

java 代碼增加一個工具類在jsoup獲取之前調用此方法 //your code SSLHelper.init(); Connection connect = Jsoup.connect(url).userAgent(USER_A

2021-01-30 09:15:12

java jsoup及jsoup+HtmlUnit簡單爬蟲

以下是兩種爬蟲方式 ** 1.Jsoup簡單爬蟲 ** 首先是普通jsoup爬取網頁信息，由於我是搭建的一個簡單地maven項目，所以先上maven依賴（以下maven依賴兩個代碼都適用）： <dependency>

2020-07-07 12:52:59

【網絡爬蟲】【java】微博爬蟲（四）：數據處理——jsoup工具解析html、dom4j讀寫xml

之前提到過，對於簡單的網頁結構解析，可以直接通過觀察法、手工寫正則解析，可以做出來，比如網易微博。但是對於結構稍微複雜點的，比如新浪微博，如果還用正則，用眼睛一個個去找，未免太麻煩了。本文介紹兩個工具包：

2020-07-03 10:57:42

jsoup之HTML解析器

jsoup是一款Java的HTML解析器，可直接解析某個URL地址、HTML文本內容。它提供了一套非常省力的API，可通過DOM，CSS以及類似於jQuery的操作方法來取出和操作數據。在爬蟲的時候，當我們用HttpClient之類

2020-07-02 02:26:47

java jsoup 多線程爬蟲Miner

java jsoup 多線程爬蟲Miner 需要配置項： 1、URL包含關鍵字。 2、存儲方式:DB-數據庫存儲;FILE-文件存儲。 3、爬取頁面最大深度。 4、下載頁面線程數。 5、分析頁面線程數。 6、存儲線程數。 -

2020-06-30 05:02:41

24小時熱門文章

最新文章

最新評論文章