Unicode轉義(\uXXXX)的編碼和解碼

在涉及Web前端開發時, 有時會遇到\uXXXX格式表示的字符, 其中XXXX是16進制數字的字符串表示形式, 在js中這個叫Unicode轉義字符, 和\n \r同屬於轉義字符. 在其他語言中也有類似的, 可能還有其它變形的格式.

多數時候遇到需要解碼的情況多點, 所以會先介紹解碼decode, 後介紹編碼encode.

下文會提供Javascript C# Java三種語言下不同方法的實現和簡單說明, 會涉及到正則和位運算的典型用法.

Javascript的實現

解碼的實現

1
2
3

 
  1. function decode(s) {

  2. return unescape(s.replace(/\\(u[0-9a-fA-F]{4})/gm, '%$1'));

  3. }

  4.  

unescape是用來處理%uXXXX這樣格式的字符串, 將\uXXXX替換成%uXXXXunescape就可以處理了.

編碼的實現

1
2
3
4
5

 
  1. function encode1(s) {

  2. return escape(s).replace(/%(u[0-9A-F]{4})|(%[0-9A-F]{2})/gm, function($0, $1, $2) {

  3. return $1 && '\\' + $1.toLowerCase() || unescape($2);

  4. });

  5. }

  6.  

和解碼中相對應, 使用escape編碼, 然後將%uXXXX替換爲\uXXXX, 因爲escape還可能把一些字符編碼成%XX的格式, 所以這些字符還需要使用unescape還原回來.

escape編碼結果%uXXXX中的XXXX是大寫的, 所以後面的replace只處理大寫的A-F.

另一種編碼的實現

不使用正則和escape

1
2
3
4
5
6
7
8
9
10
11
12
13
14

 
  1. function encode2(s) {

  2. var i, c, ret = [],

  3. pad = '000';

  4. for (i = 0; i < s.length; i++) {

  5. c = s.charCodeAt(i);

  6. if (c > 256) {

  7. c = c.toString(16);

  8. ret[i] = '\\u' + pad.substr(0, 4 - c.length) + c;

  9. } else {

  10. ret[i] = s[i];

  11. }

  12. }

  13. return ret.join('');

  14. }

  15.  

遍歷字符串中的字符, 那些charCode大於256的會轉換成16進制字符串c.toString(16), 如果不足4位則左邊補0pad.substr(0, 4 - c.length). 結尾將遍歷的結果合併成字符串返回.

C#的實現

解碼的實現

1
2
3
4
5
6
7
8
9
10
11
12
13
14

 
  1. static Regex reUnicode = new Regex(@"\\u([0-9a-fA-F]{4})", RegexOptions.Compiled);

  2.  
  3. public static string Decode(string s)

  4. {

  5. return reUnicode.Replace(s, m =>

  6. {

  7. short c;

  8. if (short.TryParse(m.Groups[1].Value, System.Globalization.NumberStyles.HexNumber, CultureInfo.InvariantCulture,out c))

  9. {

  10. return "" + (char)c;

  11. }

  12. return m.Value;

  13. });

  14. }

  15.  

正則和js中的一樣, 將XXXX轉換以16進制System.Globalization.NumberStyles.HexNumber解析爲short類型, 然後直接(char)c就能轉換成對應的字符, "" + (char)c用於轉換成字符串類型返回.

由於正則中也有\uXXXX, 所以需要寫成\\uXXXX來表示匹配字符串\uXXXX, 而不是具體的字符.

上面使用到了Lambda, 需要至少dotnet 4的SDK才能編譯通過, 可以在dotnet 2下運行.

編碼的實現

1
2
3
4
5
6

 
  1. static Regex reUnicodeChar = new Regex(@"[^\u0000-\u00ff]", RegexOptions.Compiled);

  2.  
  3. public static string Encode(string s)

  4. {

  5. return reUnicodeChar.Replace(s, m => string.Format(@"\u{0:x4}", (short)m.Value[0]));

  6. }

  7.  

和C#的解碼實現正好相反, 0-255之外的字符, 從char轉換成short, 然後string.Format以16進制, 至少輸出4位.

Java的實現

解碼的實現

和C#相似的, 使用正則

1
2
3
4
5
6
7
8
9
10
11
12

 
  1. static final Pattern reUnicode = Pattern.compile("\\\\u([0-9a-zA-Z]{4})");

  2.  
  3. public static String decode1(String s) {

  4. Matcher m = reUnicode.matcher(s);

  5. StringBuffer sb = new StringBuffer(s.length());

  6. while (m.find()) {

  7. m.appendReplacement(sb,

  8. Character.toString((char) Integer.parseInt(m.group(1), 16)));

  9. }

  10. m.appendTail(sb);

  11. return sb.toString();

  12. }

  13.  

Java語言沒有內嵌正則語法, 也沒有類似C#的@"\u1234"原始形式字符串的語法, 所以要表示正則中匹配\, 就需要\\\\, 其中2個是用於Java中字符轉義, 2個是正則中的字符轉義.

Java語言中沒有設計函數或者委託的語法, 所以它的正則庫提供的是find appendReplacement appendTail這些方法的組合, 等價於js和C#中的replace.

這裏使用StringBuffer類型是由於appendReplacement只接受這個類型, StringBuffer有線程安全的額外操作, 所以性能差一點. 也許第三方的正則庫能把API設計的更好用點.

Integer.parseInt(m.group(1), 16)用於解析爲int類型, 之後再(char), 以及Character.toString轉換成字符串.

解碼的另一種實現

因爲StringBuffer的原因, 不使用正則的實現

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26

 
  1. public static String decode2(String s) {

  2. StringBuilder sb = new StringBuilder(s.length());

  3. char[] chars = s.toCharArray();

  4. for (int i = 0; i < chars.length; i++) {

  5. char c = chars[i];

  6. if (c == '\\' && chars[i + 1] == 'u') {

  7. char cc = 0;

  8. for (int j = 0; j < 4; j++) {

  9. char ch = Character.toLowerCase(chars[i + 2 + j]);

  10. if ('0' <= ch && ch <= '9' || 'a' <= ch && ch <= 'f') {

  11. cc |= (Character.digit(ch, 16) << (3 - j) * 4);

  12. } else {

  13. cc = 0;

  14. break;

  15. }

  16. }

  17. if (cc > 0) {

  18. i += 5;

  19. sb.append(cc);

  20. continue;

  21. }

  22. }

  23. sb.append(c);

  24. }

  25. return sb.toString();

  26. }

  27.  

手工做就是麻煩很多, 代碼中也一坨的符號.

遍歷所有字符chars, 檢測到\u這樣的字符串, 檢測後續的4個字符是否是16進制數字的字符表示. 因爲Character.isDigit會把一些其它語系的數字也算進來, 所以保險的做法'0' <= ch && ch <= '9'.

Character.digit會把0-9返回爲int類型的0-9, 第2個參數是16時會把a-f返回爲int類型的10-15.

剩下的就是用|=把各個部分的數字合併到一起, 轉換成char類型. 還有一些調整遍歷位置等.

編碼的實現

考慮到Java正則的杯具, 還是繼續手工來吧, 相對解碼來說代碼少點.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

 
  1. public static String encode(String s) {

  2. StringBuilder sb = new StringBuilder(s.length() * 3);

  3. for (char c : s.toCharArray()) {

  4. if (c < 256) {

  5. sb.append(c);

  6. } else {

  7. sb.append("\\u");

  8. sb.append(Character.forDigit((c >>> 12) & 0xf, 16));

  9. sb.append(Character.forDigit((c >>> 8) & 0xf, 16));

  10. sb.append(Character.forDigit((c >>> 4) & 0xf, 16));

  11. sb.append(Character.forDigit((c) & 0xf, 16));

  12. }

  13. }

  14. return sb.toString();

  15. }

  16.  

對應於上文Java編碼的實現正好是反向的實現, 依舊遍歷字符, 遇到大於256的字符, 用位運算提取出4部分並使用Character.forDigit轉換成16進制數對應的字符.

剩下就是sb.toString()返回了.

總結

  • 編碼從邏輯上比解碼簡單點.
  • 對付字符串, js還是最順手的, 也方便測試.
  • 位運算的性能很高.
  • Java的正則庫設計的很不方便, 可以考慮第三方.
  • Java的語法設計現在看來呆板, 落後, 也沒有js那種靈活.
  • 上文Java的非正則實現可以寫成等價的C#代碼.

轉:http://netwjx.github.io/blog/2012/07/07/encode-and-decode-unicode-escape-string/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章