Unicode編碼的字塊,Unicode不同範圍對應的不同語言的字符集

Unicode 文字塊:

Basic Latin
基本拉丁語
0-127
ASCII 碼,美式英語
Latin-1 Supplement
拉丁語補充-1
126-255

ISO Latin-1 前半部分結合Basic Latin 能處理丹麥語、荷蘭語、英語、法羅羣島語、佛蘭德語、德語、夏威夷語、冰島語、印度尼西亞語、愛爾蘭語、挪威語、葡萄牙語、西班牙語、斯瓦西里語和瑞典語
Latin Extended-A
拉丁文擴展集-A
256-383

該字符塊增添了ISO 8859 字符集Latin-2、Latin-3、Latin-4 中的字符,而且是Basic Latin 和Latin-1 沒有的字符。同它們結合能夠編碼南非荷蘭語、法國布里多尼語、巴斯克語、加泰羅尼亞語、捷克語、世界語、愛沙尼亞語、法語、Friesland 語、格陵蘭島語、匈牙利語、拉脫維亞語、立陶宛語、馬耳它語、波蘭語、普羅旺斯語、羅馬尼亞語、吉普塞語、斯洛伐克語、斯洛文尼亞語、土耳其語和威爾士語
Latin Extended-B
拉丁文擴展集-B
383-591

大部分字符用於擴展Latin 文字以處理使用非傳統文字寫的語言,包括許多非洲語言、克羅地亞連字符,與塞爾維亞古斯拉夫字母、中國的拼音和Latin-10中的Sami characters 相匹配

IPA 擴展字符集

 592-687

國際音標字母

間距調節字符 

686-767

通常能夠改變前面字母發音的小符號

可識別的連接字符 

766-879 

不獨立存在,一般與前面的字母連用(放置在上邊)的可識別的記號,如:~、‘and ??

希臘 

880-1023

基於ISO 8859-7 的現代希臘語,同時提供古埃及語字符

古斯拉夫

 1024-1279

基於ISO 8859-5 上的語言,俄語和多數斯拉夫語(烏克蘭語、Byelorussian 等),前蘇聯的許多非斯拉夫語言(Azerbaijani,Ossetian,卡巴爾德
語,Chechen,Tajik 等).幾種語言(庫爾德語,阿布哈西亞語)需要Latin 和古斯拉夫字母

美國

 1326-1423

 美語

希伯來

 1424-1535

希伯來語(古典和現代)、依地語、Judezmo、早期美語。阿拉伯 1536-1791 阿拉伯語,波斯語、Pashto、Sindhi、庫爾德語和早期土耳其語

梵文字母

 2304-2431

梵語,北印度語,尼泊爾語和印度次大陸語言,包括:Awadhi,Bagheli,Bhatneri,Bhili,Bihari,BrajBhasha,Chhattisgarhi,Garhwali,Gondi,Harauti,Ho,Jaipuri,KachchhiKanauji,Konkani,Kului,Kumaoni,Kurku,Kurukh,
Marwari,Mundari,Newari,Palpa,and Santali

孟加拉語

2432-2559

一種北印度文字,使用於印度的西孟加拉州和孟加拉國的孟加拉語、阿薩姆語、Daphla、Garo、Hallam、Khasi、Manipuri、Mizo、Naga、Munda、Rian、Santali

Gurmukhi 

2560-2687 

Punjabi

Gujarati 

2686-2815 

Gujarati

Oriya 

2816-2943 

Oriya、Khondi、Santali

泰米爾語

 2944-3071 

泰米爾語和Badaga、使用於南印度、斯里蘭卡、新加坡和馬來西亞部分地區

Telugu 

3072-3199 

Telugu、Gondi、Lambadi

埃納德語

 3200-3327

埃納德語、Tulu

Malalayam

 3326-3455 

Malalayam

泰國語 

3584-3711

 泰國語、Kuy、Lavna、巴利語

老撾語

 3712-3839 

老撾語

西藏語 

3840-4031

喜瑪拉雅語包括西藏語、Ladakhi 和Lahuli

喬治亞語 

4256-4351 喬治亞語,黑海邊喬治亞前蘇維埃共和國語

Hangul Jamo 

4352-4607 

朝鮮、韓國音節的字母組成部分

Latin 的附加擴展集

 7680-7935

標準的Latin 字母如E 和Y 與可識別的記號組合在一起,除了用於越南語元音中,很少使用

希臘語擴展集

 7936-8191 

希臘字母與可識別記號的組合,用於正統的希臘語中

通用的標點符號

 8192-8303 

各種標點符號

上標和下標 

8304-8351 

普通的上標和下標

貨幣符號 

8352-8399 貨幣符號,一般在別的地方找不到

用於符號的組合記號 

8400-8447 

給多個字符做記號

像字母的符號

 8446-8527 

像字母的符號,如™

數表 

8526-8591 

分數和羅馬數字

箭頭符號 

8592-8703 

箭頭符號

數學符號

 8704-8959 

不常出現的數學運算符

技術雜項 

8960-9039

 APL 編程語言需要的符號和其他各種技術符號

控制圖形

 9216-9279 

ASCII 控制字符圖形,常用於調試

光學字符識別

 9280-9311

在打印支票上的OCR-A(光學字符識別)和MICR(磁性墨水字符識別)符號

附加字符 

9312-9471

 放在圓和括號中的字母和數字

畫方框字符 

9472-9599 

用於在等間距終端上畫方框的字符

塊元素 

9600-9631 

用於DOS 和其他用途的等間距終端圖形

幾何形狀 

9632-9727 

正方形、菱形、三角形等

雜項符號

 9726-9983

 紙牌、象棋、占卜等

Dingbats 

9984-10175 

Zapf Dingbat 字符

CJK 符號和標點 

12286-12351 

用於中國\日本和韓國的標點符號

平假名

 12352-12447

 日文字母的草體.

片假名

 12446-12543

非草體的日文字母,通常用於西方的外來詞彙,像"keyboard"

漢語拼音字母 

12544-12591 

中國的發音字母表

Hangul Compatibility Jamo 

12592-12687

 與KSC 5601 代碼兼容的韓國字符

Kanbun 

12686-12703 

在日文中用於指示古典中文的閱讀順序的記號

括起來的CJK 字母和月份 

12800-13055 

用圓和括號括起來的Hangul 和片假名字符

CJK Compatibility 

13056-13311

 只用於編碼KSC 5601 和CNS 11643 的字符統一的CJK 象形文字 19966-40959 用於中文、日文和韓文的Han 象形文字

Hangul 音節

 44032-55203 

一種韓國音節

Surrogates 

55296-57343 

目前還不能使用,將來可用於擴展Unicode,使它包括超過百萬的字符

個人使用 

57344-63743 

軟件開發者可以在此包含自己的術語,與正在執行的字符不同

CJK 兼容性象形文字

 63744-64255 

爲了保持與現有的標準的一致性如KSC 5601,而使用的一些漢字象形文字

字母的表現方式 

64256-64335 

使用於Latin、美語和希伯來語中的連字和變種

阿拉伯表象形式 

64336-65023 

各種阿拉伯字符的變種

組合半記號

 65056-65071

把跨越多個字符的多個可識別記號連成一個可識別的記號

CJK 兼容性形式 

65072-65103 

用於臺灣漢字象形文字

小型變種 

65104-65135

 用於臺灣的ASCII 標點符號的小的版本

附加的阿拉伯表象形式

 65136-65279 

各種阿拉伯字符變種

半寬和全寬形式 

65280-65519 

能夠在中文和日文的不同代碼間轉換的字符

特殊字符

 65520-65535 

字節順序記號和零寬度的非中斷性空格,常用於Unicode 文件的開始

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章