深入瞭解字符集和編碼

來源：http://www.javaeye.com/topic/97803

一、什麼是字符集?什麼是編碼? 字符(Character)是文字與符號的總稱，包括文字、圖形符號、數學符號等。一組抽象字符的集合就是字符集(Charset)。字符集常常和一種具體的語言文字對應起來，該文字中的所有字符或者大部分常用字符就構成了該文字的字符集，比如英文字符集。一組有共同特徵的字符也可以組成字符集，比如繁體漢字字符集、日文漢字字符集。字符集的子集也是字符集。計算機要處理各種字符，就需要將字符和二進制內碼對應起來，這種對應關係就是字符編碼(Encoding)。制定編碼首先要確定字符集，並將字符集內的字符排序，然後和二進制數字對應起來。根據字符集內字符的多少，會確定用幾個字節來編碼。每種編碼都限定了一個明確的字符集合，叫做被編碼過的字符集(Coded Character Set)，這是字符集的另外一個含義。通常所說的字符集大多是這個含義。 二、有哪些字符集? ASCII: American Standard Code for Information Interchange，美國信息交換標準碼。目前計算機中用得最廣泛的字符集及其編碼，由美國國家標準局(ANSI)制定。它已被國際標準化組織(ISO)定爲國際標準，稱爲ISO 646標準。 ASCII字符集由控制字符和圖形字符組成。在計算機的存儲單元中，一個ASCII碼值佔一個字節(8個二進制位)，其最高位(b7)用作奇偶校驗位。所謂奇偶校驗，是指在代碼傳送過程中用來檢驗是否出現錯誤的一種方法，一般分奇校驗和偶校驗兩種。奇校驗規定:正確的代碼一個字節中1的個數必須是奇數，若非奇數，則在最高位b7添1。偶校驗規定:正確的代碼一個字節中1的個數必須是偶數，若非偶數，則在最高位b7添1。 ISO 8859-1: ISO 8859，全稱ISO/IEC 8859，是國際標準化組織(ISO)及國際電工委員會(IEC)聯合制定的一系列8位字符集的標準，現時定義了15個字符集。 ASCII收錄了空格及94個“可印刷字符”，足以給英語使用。但是，其他使用拉丁字母的語言(主要是歐洲國家的語言)，都有一定數量的變音字母，故可以使用ASCII及控制字符以外的區域來儲存及表示。除了使用拉丁字母的語言外，使用西裏爾字母的東歐語言、希臘語、泰語、現代阿拉伯語、希伯來語等，都可以使用這個形式來儲存及表示。 * ISO 8859-1 (Latin-1) - 西歐語言 * ISO 8859-2 (Latin-2) - 中歐語言 * ISO 8859-3 (Latin-3) - 南歐語言。世界語也可用此字符集顯示。 * ISO 8859-4 (Latin-4) - 北歐語言 * ISO 8859-5 (Cyrillic) - 斯拉夫語言 * ISO 8859-6 (Arabic) - 阿拉伯語 * ISO 8859-7 (Greek) - 希臘語 * ISO 8859-8 (Hebrew) - 希伯來語(視覺順序) * ISO 8859-8-I - 希伯來語(邏輯順序) * ISO 8859-9 (Latin-5 或 Turkish) - 它把Latin-1的冰島語字母換走，加入土耳其語字母。 * ISO 8859-10 (Latin-6 或 Nordic) - 北日耳曼語支，用來代替Latin-4。 * ISO 8859-11 (Thai) - 泰語，從泰國的 TIS620 標準字集演化而來。 * ISO 8859-13 (Latin-7 或 Baltic Rim) - 波羅的語族 * ISO 8859-14 (Latin-8 或 Celtic) - 凱爾特語族 * ISO 8859-15 (Latin-9) - 西歐語言，加入Latin-1欠缺的法語及芬蘭語重音字母，以及歐元符號。 * ISO 8859-16 (Latin-10) - 東南歐語言。主要供羅馬尼亞語使用，並加入歐元符號。很明顯，iso8859-1編碼表示的字符範圍很窄，無法表示中文字符。但是，由於是單字節編碼，和計算機最基礎的表示單位一致，所以很多時候，仍舊使用iso8859-1編碼來表示。而且在很多協議上，默認使用該編碼。 UCS: 通用字符集(Universal Character Set，UCS)是由ISO制定的ISO 10646(或稱ISO/IEC 10646)標準所定義的字符編碼方式，採用4字節編碼。 UCS包含了已知語言的所有字符。除了拉丁語、希臘語、斯拉夫語、希伯來語、阿拉伯語、亞美尼亞語、格魯吉亞語，還包括中文、日文、韓文這樣的象形文字，UCS還包括大量的圖形、印刷、數學、科學符號。 * UCS-2: 與unicode的2byte編碼基本一樣。 * UCS-4: 4byte編碼, 目前是在UCS-2前加上2個全零的byte。 Unicode: Unicode(統一碼、萬國碼、單一碼)是一種在計算機上使用的字符編碼。它是http://www.unicode.org制定的編碼機制，要將全世界常用文字都函括進去。它爲每種語言中的每個字符設定了統一併且唯一的二進制編碼，以滿足跨語言、跨平臺進行文本轉換、處理的要求。 1990年開始研發，1994年正式公佈。隨着計算機工作能力的增強，Unicode也在面世以來的十多年裏得到普及。但自從unicode2.0開始，unicode採用了與ISO 10646-1相同的字庫和字碼，ISO也承諾ISO10646將不會給超出0x10FFFF的UCS-4編碼賦值，使得兩者保持一致。 Unicode的編碼方式與ISO 10646的通用字符集(Universal Character Set，UCS)概念相對應，目前的用於實用的Unicode版本對應於UCS-2，使用16位的編碼空間。也就是每個字符佔用2個字節，基本滿足各種語言的使用。實際上目前版本的Unicode尚未填充滿這16位編碼，保留了大量空間作爲特殊使用或將來擴展。 UTF: Unicode 的實現方式不同於編碼方式。一個字符的Unicode編碼是確定的，但是在實際傳輸過程中，由於不同系統平臺的設計不一定一致，以及出於節省空間的目的，對Unicode編碼的實現方式有所不同。 Unicode的實現方式稱爲Unicode轉換格式(Unicode Translation Format，簡稱爲 UTF)。 * UTF-8: 8bit變長編碼，對於大多數常用字符集(ASCII中0~127字符)它只使用單字節，而對其它常用字符(特別是朝鮮和漢語會意文字)，它使用3字節。 * UTF-16: 16bit編碼，是變長碼，大致相當於20位編碼，值在0到0x10FFFF之間，基本上就是unicode編碼的實現，與CPU字序有關。漢字編碼: * GB2312字集是簡體字集，全稱爲GB2312(80)字集，共包括國標簡體漢字6763個。 * BIG5字集是臺灣繁體字集，共包括國標繁體漢字13053個。 * GBK字集是簡繁字集，包括了GB字集、BIG5字集和一些符號，共包括21003個字符。 * GB18030是國家制定的一個強制性大字集標準，全稱爲GB18030-2000，它的推出使漢字集有了一個“大一統”的標準。 ANSI和Unicode big endia: 我們在Windows系統中保存文本文件時通常可以選擇編碼爲ANSI、Unicode、Unicode big endian和UTF-8，這裏的ANSI和Unicode big endia是什麼編碼呢? ANSI: 使用2個字節來代表一個字符的各種漢字延伸編碼方式，稱爲ANSI編碼。在簡體中文系統下，ANSI編碼代表GB2312編碼，在日文操作系統下，ANSI編碼代表JIS編碼。 Unicode big endia: UTF-8以字節爲編碼單元，沒有字節序的問題。UTF-16以兩個字節爲編碼單元，在解釋一個UTF-16文本前，首先要弄清楚每個編碼單元的字節序。 Unicode規範中推薦的標記字節順序的方法是BOM(即Byte Order Mark)。在UCS編碼中有一個叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的編碼是FEFF。而FFFE在UCS中是不存在的字符，所以不應該出現在實際傳輸中。 UCS規範建議我們在傳輸字節流前，先傳輸字符"ZERO WIDTH NO-BREAK SPACE"。這樣如果接收者收到FEFF，就表明這個字節流是Big-Endian的；如果收到FFFE，就表明這個字節流是Little-Endian的。因此字符"ZERO WIDTH NO-BREAK SPACE"又被稱作BOM。 Windows就是使用BOM來標記文本文件的編碼方式的。 三、編程語言與編碼 C、C++、Python2內部字符串都是使用當前系統默認編碼 Python3、Java內部字符串用Unicode保存 Ruby有一個內部變量$KCODE用來表示可識別的多字節字符串的編碼，變量值爲"EUC" "SJIS" "UTF8" "NONE"之一。 $KCODE的值爲"EUC"時，將假定字符串或正則表達式的編碼爲EUC-JP。同樣地，若爲"SJIS"時則認定爲Shift JIS。若爲"UTF8"時則認定爲UTF-8。若爲"NONE"時，將不會識別多字節字符串。在向該變量賦值時，只有第1個字節起作用，且不區分大小寫字母。 "e" "E" 代表 "EUC"，"s" "S" 代表 "SJIS"，"u" "U" 代表 "UTF8"，而"n" "N" 則代表 "NONE"。默認值爲"NONE"。即默認情況下Ruby把字符串當成單字節序列來處理。 四、爲什麼會亂碼? 亂碼是個老問題，從上面我們知道，字符在保存時的編碼格式如果和要顯示的編碼格式不一樣的話，就會出現亂碼問題。我們的Web系統，從底層數據庫編碼、Web應用程序編碼到HTML頁面編碼，如果有一項不一致的話，就會出現亂碼。所以，解決亂碼問題說難也難說簡單也簡單，關鍵是讓交互系統之間編碼一致。 五、有沒有萬金油? 在如此多種編碼和字符集弄的我們眼花繚亂的情況下，我們只需選擇一種兼容性最好的編碼方式和字符集，讓它成爲我們程序子系統之間交互的編碼契約，那麼從此惱人的亂碼問題即將遠離我們而去 -- 這種兼容性最好的編碼就是UTF-8! 畢竟GBK/GB2312是國內的標準，當我們大量使用國外的開源軟件時，UTF-8纔是編碼界最通用的語言。 六、參考資料 unicode.org iT wiki - Unicode iT wiki - UCS 編碼又見編碼對字符編碼與Unicode,ISO 10646,UCS,UTF8,UTF16,GBK,GB2312的理解 Java的中文處理學習筆記：Hello Unicode 中文字符編碼簡介 GB2312/GBK/GB18030/BIG5 [譯]總結：如何用Ruby處理Unicode，FAQ Ruby參考手冊 - 內部變量

深入瞭解字符集和編碼

.Net 8.0 下的新RPC，IceRPC之試試的新玩法"打洞"

完美替代postman的軟件

Vue mockjs mock.js

關於遊戲付費的一點想法

我通過CKA和CKS啦！

《最新出爐》系列入門篇-Python+Playwright自動化測試-42-強大的可視化追蹤利器Trace Viewer

大數據怎麼學？對大數據開發領域及崗位的詳細解讀，完整理解大數據開發領域技術體系

Head First Servlet/JSP 學習筆記(1)

評《數據庫原理、編程與性能》

Struts，MVC 的一種開放源碼實現

說說大型高併發高負載網站的系統架構

中文分詞免費源碼資源

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結