常見字符編碼詳解ANSI,UTF-8,UCS,GBK,GB2312,BIG5

ASCII
American Standard Code for Information Interchange-美國信息交換標準代碼,發表於1967年,到2007年12月,逐漸被Unicode取代。單字節字符編碼,定義了128個字符

ANSI
使用多個字節來代表一個字符的各種漢字延伸編碼方式,稱爲 ANSI 編碼,通常使用 0x80~0xFF 範圍的2個字節來表示1個字符。在簡體中文Windows操作系統中,ANSI 編碼代表 GBK 編碼;在繁體中文Windows操作系統中,ANSI編碼代表Big5;在日文Windows操作系統中,ANSI 編碼代表 Shift_JIS 編碼。ANSI編碼表示英文字符時用一個字節,表示中文用兩個或四個字節。

GB2312 
信息交換用漢字編碼字符集,發佈於1980年,共收入漢字6763個和非漢字圖形字符682個。整個字符集分成94個區,每區有94個位。每個區位上只有一個字符,因此可用所在的區和位來對漢字進行編碼,稱爲區位碼。採用EUC儲存方法,以便兼容於ASCII。每個漢字及符號以兩個字節來表示。第一個字節稱爲“高位字節”(也稱“區字節)”,第二個字節稱爲“低位字節”(也稱“位字節”)。漢字區的“高位字節”的範圍是0xB0-0xF7,“低位字節”的範圍是0xA1-0xFE

GBK/GB13000
漢字內碼擴展規範,發佈於1995年。GBK 向下與 GB 2312 編碼兼容,向上支持 ISO 10646.1 國際標準。使用了雙字節編碼方案,其編碼範圍從8140至FEFE(剔除xx7F),共23940個碼位,共收錄了21003個漢字。

GB18030
GBK的取代版本,在GBK基礎上增加了CJK統一漢字擴充A的漢字(2000版)。在GBK基礎上增加了CJK統一漢字擴充B的漢字(2005版)

BIG5
大五碼,通行於臺灣、香港地區的一個繁體字編碼方案,共收錄13,060箇中文字.Big5屬中文內碼(中文碼分爲中文內碼及中文交換碼兩類).雙字節字符集,使用了雙八碼儲存方法,以兩個字節來

UTF-8
UTF-8(8-bit Unicode Transformation Format)是一種針對Unicode的可變長度字符編碼,又稱萬國碼。由Ken Thompson於1992年創建。現在已經標準化爲RFC 3629。UTF-8用1到6個字節編碼UNICODE字符。用在網頁上可以同一頁面顯示中文簡體繁體及其它語言。window下會有引導頭xEFxBBxBF

UCS
Universal Character Set-通用字符集,UCS 是所有其他字符集標準的一個超集,ISO 10646標準

UCS-2/UTF-16
大部分字符都以固定長度的字節 (2字節) 儲存,無法兼容於ASCII編碼。除UTF-16支持超過2bytes的字集,UCS-2和UTF-16 大體是相同的

UCS-2BE/UTF-16BE(Big Endian)
在UCS-2/UTF-16數據之前增加引導頭xFExFF

UCS-2LE/UTF-16LE(Little Endian)
在UCS-2/UTF-16數據之前增加引導頭xFFxFE

UCS-4/UTF-32
UTF-32對每個字符都使用4字節,固定位方便截取,但點空間。 除UTF-32標準包含額外的Unicode意涵,UCS-4和UTF-32 大體是相同的

UCS-4BE/UTF-32BE
在UCS-4/UTF-32數據之前增加引導頭xFExFFx00x00

UCS-4LE/UTF-32LE
在UCS-4/UTF-32數據之前增加引導頭x00x00xFExFF

koi8-r
KOI8-R是KOI-8系列的斯拉夫文字8位元編碼供俄語及保加利亞語使用在Unicode未流行之前KOI8-R 是最爲廣泛使用的俄語編碼

cp932/Shift_JIS
Shift_JIS是一個日本電腦系統常用的編碼表它能容納全角及半角拉丁字母平假名片假名符號及日語漢字,它被命名爲Shift_JIS的原因是它在放置全角字符時要避開原本在0xA1-0xDF放置的半角假名字符。在微軟及IBM的日語電腦系統中即使用了這個編碼表這個編碼表稱爲CP932

ISO-2022
ISO 2022,全稱ISO/IEC 2022,由國際標準化組織(ISO)及國際電工委員會(IEC)聯合制定,是一個使用7位編碼表示漢語文字、日語文字或朝鮮文字的方法。ISO 2022等同於歐洲標準組織(ECMA)的ECMA-35、中國國標GB 2312、日本工業規格JIS X 0202(舊稱JIS C 6228)及韓國工業規格KS X 1004(舊稱KS C 5620)。

ISO-8859
全稱ISO/IEC 8859,是國際標準化組織(ISO)及國際電工委員會(IEC)聯合制定的一系列8位字符集的標準,現時定義了15個字符集

Windows-1250
用於中歐和東歐語言(波蘭,捷克,斯洛伐克,匈牙利,波斯尼亞塞爾維亞,克羅地亞,斯洛文尼亞,(拉丁語),羅馬尼亞和阿爾巴尼亞

Windows-1251
用於西裏爾字母表

Windows-1252
用於拉丁字母表

Windows-1253
用於希臘文

Windows-1254
用於土耳其語

Windows-1255
用於希伯萊語

Windows-1256
用於阿拉伯語

Windows-1257
用於愛沙尼亞,拉脫維亞和立陶宛語

Windows-1258
用於越南語

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章