Jsoup过滤html标签并不删除换行符

使用了两种抽取文本的方法:


 
  1. Document doc = Jsoup.parse(html);

  2. String text = doc.text();

或者

String text = Jsoup.clean(html,Whitelist.none());

解决办法:

使用jsoup.clean的另一种方法重载:

public static String clean(String bodyHtml, String baseUri, Whitelist whitelist, Document.OutputSettings outputSettings)

bodyHtml —不安全的html片段

baseUri —将html中相对路径转换为绝对路径的URL

whitelist —白名单允许的html标签和属性

outputsettings —文档输出设置,控制精细打印

具体使用时:

String text =Jsoup.clean(html, "", Whitelist.none(), new Document.OutputSettings().prettyPrint(false));
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章