HTML 標籤、轉義字符及相應的 Java 過濾方法

原創

2019-06-16 21:08

HTML 標籤

註釋：開始標籤的英文翻譯是 start tag 或 opening tag，結束標籤的英文翻譯是 end tag 或 closing tag

一些字符在 HTML 中擁有特殊的含義，比如小於號 (<) 用於定義 HTML 標籤的開始。如果我們希望瀏覽器正確地顯示這些字符，我們必須在 HTML 源碼中插入字符實體。

字符實體有三部分：一個和號 (&)，一個實體名稱，或者 # 和一個實體編號，以及一個分號 (;)。

要在 HTML 文檔中顯示小於號，我們需要這樣寫：< 或者 <

使用實體名稱而不是實體編號的好處在於，名稱相對來說更容易記憶。而這麼做的壞處是，並不是所有的瀏覽器都支持最新的實體名稱，然而幾乎所有的瀏覽器對實體編號的支持都很好。

注意：實體對大小寫敏感。
詳見HTML 轉義字符

正則表達式過濾

String txtcontent = content.replaceAll("</?[^>]+>", "");

org.apache.commons.lang3.StringEscapeUtils

String txtcontent = StringEscapeUtils.unescapeHtml4(content);

對於更復雜的需求，可考慮選用Jsoup提取相應的數據

Jsoup 是一個用於處理 HTML 的 Java 庫。它提供了一些非常方便的 API，通過使用最好的 DOM，CSS 和類 jquery 的方法，以提取和操作數據。

過濾換行符

String txtcontent = content.replaceAll("\n", "");

過濾所有

String txtcontent = content.replaceAll("\\s*", "");

參考資料：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.