[轉帖]MiSans字庫GB18030標準驗證情況

https://zhuanlan.zhihu.com/p/663626158

 

 提供的信息,手機廠商終於見到跨入GB18030-2022實現級別3的進步。

 

MiSans網站提供兩個漢字庫下載和使用,MiSans FAQ也告知只要升級去Xiaomi HyperOS後,已可完整支持。

MiSans L3字體有以下說明:

MiSans 新增 60340 字符
符合 GB18030-2022 最新字符集國家標準
GB18030-2022 強制規範三個實現級別,於 2023 年 8 月 1 日起開始執行。實現級別1共 27,584個漢字;實現級別 2 包含實現級別 1,此外,實現級別 2 還支持《通用規範漢字表》中的沒有包含在實現級別 1 之內的編碼漢字,共計 27,780 個漢字;實現級別 3 包含實現級別 2,此外,實現級別 3 還支持新標準件規定的全部漢字及表 3 中的康熙部首,總計 87,887 個漢字,用於政務服務和公共服務的產品應滿足實現級別 3 的要求。
MiSans 包含級別 1+ 級別 2,MiSans L3 爲級別 3 字庫(該字庫不包含級別 1 和級別 2)。

實際下載字體後,漢字部分驗證結果如下:

MiSans (Regular) :

CJK Unified Ideographs Extension A (6,582 out of 6,592 characters)
CJK Unified Ideographs (20,976 out of 20,992 characters)
CJK Compatibility Ideographs (21 out of 472 characters)
CJK Unified Ideographs Extension B (42 out of 42,720 characters)
CJK Unified Ideographs Extension C (44 out of 4,154 characters)
CJK Unified Ideographs Extension D (8 out of 222 characters)
CJK Unified Ideographs Extension E (108 out of 5,762 characters)

MiSans L3 (Regular) :

CJK Symbols and Punctuation (1 out of 64 characters)
CJK Unified Ideographs Extension B (42,675 out of 42,720 characters)
CJK Unified Ideographs Extension C (4,105 out of 4,154 characters)
CJK Unified Ideographs Extension D (214 out of 222 characters)
CJK Unified Ideographs Extension E (5,654 out of 5,762 characters)
CJK Unified Ideographs Extension F (7,473 out of 7,473 characters)
CJK Unified Ideographs Extension G (2 out of 4,939 characters)

值得寬慰的是,以前GBK-1995的PUA區字形,在這個版本中,已完全刪除了,達到GB18030-2022的實際要求。

稍有遺憾的是:

  • 雖然擴展G有兩個字,卻與人名、地名無關,僅僅是兩個biang字。
  • 基本區及擴展A末尾其實還有幾個字,當前Unicode已填滿,但目前字庫只是按國標文本處理,並沒有補齊。
  • 21個兼容區漢字,當前國標和國際標準,實際只承認使用12字,目前仍然是21個字,與國標不符

從行業來看,能跨出這一步,不失爲一個正面的行動。但爲了一個國家級公用服務字庫,各個廠商各自造這麼一個大型字庫,除了浪費納稅人的銀子外,其實並無可取之處。

如果你在用小米手機,不妨實際驗證看看有什麼幫助,或許輸入法方面仍然是個障礙。
對於PUA字(很多生僻字人舊身份證在用),小米手機目前會不會像Linux一樣顯示內碼,以便過渡,仍是一個疑問。

有關HyperOS,參見小米澎湃OS嚐鮮計劃,首批更新機型曝光_系列_Redmi_手機

延伸話題:GB18030-2022一號修改單(包含擴展GHI,尤其是擴展I的622人名、地名專用漢字),何時可以落地?

據相關人士信息,一號修改單已完成一徵、二徵,預計會進行三徵,但從行業落地角度看,仍會面對三種類型的作爲:

  1. 空談無視型:GB/T 2312-1980就是標準,雙字節擴展到GBK-1995已是恩賜,GBK外字用字人只是自討苦喫而已。
  2. 循規蹈矩型:以“把書讀死”爲最高境界,GBK裏有PUA就按照GBK做,GB18030是啥當不知道,即便知道也將52個雙字節雙碼字讓用字人自己去煩惱;或者做到GB18030-2022實現級別3的擴展F,完全不知急用加字區、擴展GHI的存在。
  3. 實幹低調型:其實GB18030-2005開始,GB四字節編碼與Unicode擴展16個平面的編碼已經是線性算法映射關係,從字集來講,自動跟隨Unicode擴展集和急用加字只是舉手之勞,做完並無任何煩惱,併爲PUA轉正打通最後1um的斷頭路,也是一件功德無量的事。先行者見 卓碼之裕:GB18030-2022 第1號修改單達到落地實施條件

相關文章

WHATWG的GB18030-2022編碼標準情況
Win11/Win10 22H2九月更新了什麼?
放低陳見,將中文信息標準化落於實處
從“訛”字看中文信息化惡習之養成

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章