Unicode轉義(\uXXXX)的編碼和解碼

原創

2019-03-13 19:31

在涉及Web前端開發時, 有時會遇到\uXXXX格式表示的字符, 其中XXXX是16進制數字的字符串表示形式, 在js中這個叫Unicode轉義字符, 和\n \r同屬於轉義字符. 在其他語言中也有類似的, 可能還有其它變形的格式.

多數時候遇到需要解碼的情況多點, 所以會先介紹解碼decode, 後介紹編碼encode.

下文會提供Javascript C# Java三種語言下不同方法的實現和簡單說明, 會涉及到正則和位運算的典型用法.

Javascript的實現

解碼的實現

1
2
3

function decode(s) {
return unescape(s.replace(/\\(u[0-9a-fA-F]{4})/gm, '%$1'));
}

unescape是用來處理%uXXXX這樣格式的字符串, 將\uXXXX替換成%uXXXX後unescape就可以處理了.

編碼的實現

function encode1(s) {
return escape(s).replace(/%(u[0-9A-F]{4})|(%[0-9A-F]{2})/gm, function($0, $1, $2) {
return $1 && '\\' + $1.toLowerCase() || unescape($2);
});
}

和解碼中相對應, 使用escape編碼, 然後將%uXXXX替換爲\uXXXX, 因爲escape還可能把一些字符編碼成%XX的格式, 所以這些字符還需要使用unescape還原回來.

escape編碼結果%uXXXX中的XXXX是大寫的, 所以後面的replace只處理大寫的A-F.

另一種編碼的實現

不使用正則和escape

function encode2(s) {
var i, c, ret = [],
pad = '000';
for (i = 0; i < s.length; i++) {
c = s.charCodeAt(i);
if (c > 256) {
c = c.toString(16);
ret[i] = '\\u' + pad.substr(0, 4 - c.length) + c;
} else {
ret[i] = s[i];
}
}
return ret.join('');
}

遍歷字符串中的字符, 那些charCode大於256的會轉換成16進制字符串c.toString(16), 如果不足4位則左邊補0pad.substr(0, 4 - c.length). 結尾將遍歷的結果合併成字符串返回.

C#的實現

解碼的實現

static Regex reUnicode = new Regex(@"\\u([0-9a-fA-F]{4})", RegexOptions.Compiled);
public static string Decode(string s)
{
return reUnicode.Replace(s, m =>
{
short c;
if (short.TryParse(m.Groups[1].Value, System.Globalization.NumberStyles.HexNumber, CultureInfo.InvariantCulture,out c))
{
return "" + (char)c;
}
return m.Value;
});
}

正則和js中的一樣, 將XXXX轉換以16進制System.Globalization.NumberStyles.HexNumber解析爲short類型, 然後直接(char)c就能轉換成對應的字符, "" + (char)c用於轉換成字符串類型返回.

由於正則中也有\uXXXX, 所以需要寫成\\uXXXX來表示匹配字符串\uXXXX, 而不是具體的字符.

上面使用到了Lambda, 需要至少dotnet 4的SDK才能編譯通過, 可以在dotnet 2下運行.

編碼的實現

static Regex reUnicodeChar = new Regex(@"[^\u0000-\u00ff]", RegexOptions.Compiled);
public static string Encode(string s)
{
return reUnicodeChar.Replace(s, m => string.Format(@"\u{0:x4}", (short)m.Value[0]));
}

和C#的解碼實現正好相反, 0-255之外的字符, 從char轉換成short, 然後string.Format以16進制, 至少輸出4位.

Java的實現

解碼的實現

和C#相似的, 使用正則

static final Pattern reUnicode = Pattern.compile("\\\\u([0-9a-zA-Z]{4})");
public static String decode1(String s) {
Matcher m = reUnicode.matcher(s);
StringBuffer sb = new StringBuffer(s.length());
while (m.find()) {
m.appendReplacement(sb,
Character.toString((char) Integer.parseInt(m.group(1), 16)));
}
m.appendTail(sb);
return sb.toString();
}

Java語言沒有內嵌正則語法, 也沒有類似C#的@"\u1234"原始形式字符串的語法, 所以要表示正則中匹配\, 就需要\\\\, 其中2個是用於Java中字符轉義, 2個是正則中的字符轉義.

Java語言中沒有設計函數或者委託的語法, 所以它的正則庫提供的是find appendReplacement appendTail這些方法的組合, 等價於js和C#中的replace.

這裏使用StringBuffer類型是由於appendReplacement只接受這個類型, StringBuffer有線程安全的額外操作, 所以性能差一點. 也許第三方的正則庫能把API設計的更好用點.

Integer.parseInt(m.group(1), 16)用於解析爲int類型, 之後再(char), 以及Character.toString轉換成字符串.

解碼的另一種實現

因爲StringBuffer的原因, 不使用正則的實現

public static String decode2(String s) {
StringBuilder sb = new StringBuilder(s.length());
char[] chars = s.toCharArray();
for (int i = 0; i < chars.length; i++) {
char c = chars[i];
if (c == '\\' && chars[i + 1] == 'u') {
char cc = 0;
for (int j = 0; j < 4; j++) {
char ch = Character.toLowerCase(chars[i + 2 + j]);
if ('0' <= ch && ch <= '9' || 'a' <= ch && ch <= 'f') {
cc |= (Character.digit(ch, 16) << (3 - j) * 4);
} else {
cc = 0;
break;
}
}
if (cc > 0) {
i += 5;
sb.append(cc);
continue;
}
}
sb.append(c);
}
return sb.toString();
}

手工做就是麻煩很多, 代碼中也一坨的符號.

遍歷所有字符chars, 檢測到\u這樣的字符串, 檢測後續的4個字符是否是16進制數字的字符表示. 因爲Character.isDigit會把一些其它語系的數字也算進來, 所以保險的做法'0' <= ch && ch <= '9'.

Character.digit會把0-9返回爲int類型的0-9, 第2個參數是16時會把a-f返回爲int類型的10-15.

剩下的就是用|=把各個部分的數字合併到一起, 轉換成char類型. 還有一些調整遍歷位置等.

編碼的實現

考慮到Java正則的杯具, 還是繼續手工來吧, 相對解碼來說代碼少點.

public static String encode(String s) {
StringBuilder sb = new StringBuilder(s.length() * 3);
for (char c : s.toCharArray()) {
if (c < 256) {
sb.append(c);
} else {
sb.append("\\u");
sb.append(Character.forDigit((c >>> 12) & 0xf, 16));
sb.append(Character.forDigit((c >>> 8) & 0xf, 16));
sb.append(Character.forDigit((c >>> 4) & 0xf, 16));
sb.append(Character.forDigit((c) & 0xf, 16));
}
}
return sb.toString();
}

對應於上文Java編碼的實現正好是反向的實現, 依舊遍歷字符, 遇到大於256的字符, 用位運算提取出4部分並使用Character.forDigit轉換成16進制數對應的字符.

剩下就是sb.toString()返回了.

總結

編碼從邏輯上比解碼簡單點.
對付字符串, js還是最順手的, 也方便測試.
位運算的性能很高.
Java的正則庫設計的很不方便, 可以考慮第三方.
Java的語法設計現在看來呆板, 落後, 也沒有js那種靈活.
上文Java的非正則實現可以寫成等價的C#代碼.

轉：http://netwjx.github.io/blog/2012/07/07/encode-and-decode-unicode-escape-string/

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

微服務實踐Aspire項目發佈到遠程k8s集羣

前提你必須會創建aspire項目，不會的請先看微服務新體驗之Aspire初體驗 Aspirate (Aspir8) Aspirate 是將aspire項目發佈到k8s集羣的工具安裝aspirate dotnet tool install

2024-06-02 14:24:56

微服務實踐之使用 Visual Studio 2022 調試Dapr 應用程序

安裝配置相關軟件安裝 PowerShell 7 / Core dotnet tool install --global PowerShell 安裝 Visual Studio 擴展 Microsoft Child Process Deb

2024-06-02 14:24:56

.NET開源、跨平臺、使用簡單的面部識別庫

前言今天給大家分享一個.NET開源（MIT License）、免費、跨平臺（適用於 Windows、MacOS 和 Linux ）、使用簡單的面部識別庫：FaceRecognitionDotNet。項目介紹 FaceRecogniti

2024-06-02 14:21:55

Python 潮流週刊#53：我輩楷模，一個約見諾獎得主，一個成爲核心開發者

本週刊由 Python貓出品，精心篩選國內外的 250+ 信息源，爲你挑選最值得分享的文章、教程、開源項目、軟件工具、播客和視頻、熱門話題等內容。願景：幫助所有讀者精進 Python 技術，並增長職業和副業的收入。本期週刊分享了 12

豌豆花下貓

2024-06-02 14:19:15

Terraform管理OpenStack

官方安裝指南 https://developer.hashicorp.com/terraform/install https://developer.hashicorp.com/terraform/intro/getting-sta

2024-06-02 14:13:44

matlab練習程序（LQR路徑跟蹤）

LQR 是一種優化控制方法，設計目標是找到一組控制輸入，使得線性系統的狀態軌跡儘可能地接近目標，同時使控制輸入儘可能小。其目標函數是一個二次型成本函數。分爲以下幾個步驟： 1. 設系統動態方程爲：其中x爲狀態量，u爲控制輸入，A和B爲

2024-06-02 14:11:04

h32 Most commonly used tags in HTML

Most commonly used tags in HTML Last Updated : 08 Mar, 2024 Most commonly used tags in HTML refer to HTM

2024-06-02 14:10:23

css45 CSS Math Functions

https://www.w3schools.com/css/css_math_functions.asp The CSS math functions allow mathematical expressions to be used

2024-06-02 14:10:23

CSS tutorials (w3school)

CSS tutorials (w3school) https://www.schoolsw3.com/css/index.php (Русский язык) https://www.w3schools.com/css/css_intro

2024-06-02 14:10:23

css44 CSS The !important Rule

https://www.w3schools.com/css/css_important.asp What is !important? The !important rule in CSS is used to add more imp

2024-06-02 14:10:23

css41 CSS Website Layout

https://www.w3schools.com/css/css_website_layout.asp Website Layout A website is often divided into headers, menus, co

2024-06-02 14:10:23

css39 CSS Forms

https://www.w3schools.com/css/css_form.asp The look of an HTML form can be greatly improved with CSS: <!DOCTYPE html>

2024-06-02 14:10:23

css40 CSS Counters

https://www.w3schools.com/css/css_counters.asp CSS counters are "variables" maintained by CSS whose values can be inc

2024-06-02 14:10:23

css43 CSS Specificity

https://zhuanlan.zhihu.com/p/670589063 CSS Specificity(CSS 特異性)是一個用來決定當多個CSS規則應用於同一個元素時,哪個規則將優先應用的機制。 What is Specific

2024-06-02 14:10:23

css42 CSS Units

https://www.w3schools.com/css/css_units.asp CSS Units CSS has several different units for expressing a length. Many CS

2024-06-02 14:10:23

24小時熱門文章

最新文章

最新評論文章