native2ascii使用

 在做Java開發的時候,常常會出現一些亂碼,或者無法正確識別或讀取的文件,原因是編碼方式的不一致。native2ascii是sun java sdk提供的一個工具。用來將別的文本類文件(比如*.txt,*.ini,*.properties,*.java等等)編碼轉爲Unicode編碼。

一.獲取native2ascii
  安裝了jdk後,假如你是在windows上安裝,那麼在jdk的安裝目錄下,會有一個bin目錄,其中native2ascii.exe正是。

二.使用方法
命令行格式:

native2ascii.exe -[options] [inputfile [outputfile]]

其中:
  -[options]表示命令開關,有兩個選項可供選擇:
    -reverse:用Latin-1或Unicode編碼把文件轉換成本地編碼格式
    -encoding encoding_name:要把文件轉換的目標編碼
  inputfile:表示輸入文件全名。
  outputfile:輸出文件名。如果缺少此參數,將輸出到控制檯。

具體介紹如下:
1.命令行交互方式
  在這種方式下通過手工輸入字符實時在Console中實現交互轉碼。退出按Ctrl+c
  1)本地編碼→Latin編碼:
   直接敲入native2ascii.exe,程序光標會停在下一行,這時你可以直接敲入想要轉換的字符,例如:

D:\jdk1.5.0_06\bin>native2ascii.exe
  我們
  \u6211\u4eec

  2)Latin-1編碼→指定編碼:
   直接敲入native2ascii.exe -reverse,程序光標會停在下一行,這時你可以直接敲入想要轉換的字符,例如:

D:\jdk1.5.0_06\bin>native2ascii.exe -reverse
  \u6211\u4eec
  我們

2.文件轉換方式
  在這種方式下通過指定inputfile和outputfile來實現轉碼。
  1)指定編碼→Latin編碼:
    例如:

D:\jdk1.5.0_06\bin>native2ascii.exe -encoding utf8 abc.txt bcd.txt

  2)Latin-1編碼→指定編碼:
    例如:

D:\jdk1.5.0_06\bin>native2ascii.exe -reverse utf8 abc.txt bcd.txt

常見編碼列表:
8859_1             ISO 8859-1
8859_2             ISO 8859-2
8859_3             ISO 8859-3
8859_4             ISO 8859-4
8859_5             ISO 8859-5
8859_6             ISO 8859-6
8859_7             ISO 8859-7
8859_8             ISO 8859-8
8859_9             ISO 8859-9
Big5               Big5 碼,繁體中文
CNS11643           CNS 11643,繁體中文
Cp037              美國、加拿大(兩種語言,法語)、荷蘭、葡萄牙、巴西、澳大利亞
Cp1006             IBM AIX 巴基斯坦(烏爾都語)
Cp1025             IBM 多語種西里爾語:保加利亞、波斯尼亞 、黑塞哥維那、馬其頓 (FYR)
Cp1026             IBM Latin-5,土耳其
Cp1046             IBM Open Edition US EBCDIC
Cp1097             IBM 伊朗(波斯語)/波斯
Cp1098             IBM 伊朗(波斯語)/波斯 (PC)
Cp1112             IBM 拉脫維亞,立陶宛
Cp1122             IBM 愛沙尼亞
Cp1123             IBM 烏克蘭
Cp1124             IBM AIX 烏克蘭
Cp1125             IBM 烏克蘭 (PC)
Cp1250             Windows 東歐
Cp1251             Windows 斯拉夫語
Cp1252             Windows Latin-1
Cp1253             Windows 希臘
Cp1254             Windows 土耳其
Cp1255             Windows 希伯萊
Cp1256             Windows 阿拉伯
Cp1257             Windows 波羅的語
Cp1258             Windows 越南語
Cp1381             IBM OS/2, DOS 中華人民共和國 (PRC)
Cp1383             IBM AIX 中華人民共和國 (PRC)
Cp273              IBM 奧地利、德國
Cp277              IBM 丹麥、挪威
Cp278              IBM 芬蘭、瑞典
Cp280              IBM 意大利
Cp284              IBM 加泰羅尼亞語/西班牙、拉丁美洲西班牙語
Cp285              IBM 英國、愛爾蘭
Cp297              IBM 法國
Cp33722            IBM-eucJP - 日語 (5050 的超集)
Cp420              IBM 阿拉伯
Cp424              IBM 希伯萊
Cp437              MS-DOS 美國、澳大利亞、新西蘭、南非
Cp500              EBCDIC 500V1
Cp737              PC 希臘
Cp775              PC 波羅的語
Cp838              IBM 泰國擴展 SBCS
Cp850              MS-DOS Latin-1
Cp852              MS-DOS Latin-2
Cp855              IBM 斯拉夫語
Cp857              IBM 土耳其語
Cp860              MS-DOS 葡萄牙語
Cp861              MS-DOS 冰島語
Cp862              PC 希伯萊
Cp863              MS-DOS 加拿大法語
Cp864              PC 阿拉伯語
Cp865              MS-DOS 日爾曼語
Cp866              MS-DOS 俄語
Cp868              MS-DOS 巴基斯坦語
Cp869              IBM 現代希臘語
Cp870              IBM 多語種 Latin-2
Cp871              IBM 冰島語
Cp874              IBM 泰國語
Cp875              IBM 希臘語
Cp918              IBM 巴基斯坦(烏爾都語)
Cp921              IBM 拉脫維亞、立陶宛(AIX, DOS)
Cp922              IBM 愛沙尼亞 (AIX, DOS)
Cp930              與 4370 UDC 混合的日語,5026 的超集
Cp933              與 1880 UDC 混合的韓文,5029 的超集
Cp935              與 1880 UDC 混合的簡體中文主機,5031 的超集
Cp937              與 6204 UDC 混合的繁體中文,5033 的超集
Cp939              與 4370 UDC 混合的日語拉丁字母,5035 的超集
Cp942              日語 (OS/2),932 的超集
Cp948              OS/2 中文(臺灣),938 超集
Cp949              PC 韓文
Cp950              PC 中文(香港、臺灣)
Cp964              AIX 中文(臺灣)
Cp970              AIX 韓文
EUCJIS             JIS, EUC 編碼、日語
GB2312             GB2312, EUC 編碼、簡體中文
GBK                GBK, 簡體中文
ISO2022CN          ISO 2022 CN, 中文
ISO2022CN_CNS      ISO-2022-CN 形式的 CNS 11643,繁體中文
ISO2022CN_GB       ISO-2022-CN 形式的 GB 2312,簡體中文
ISO2022KR          ISO 2022 KR, 韓文
JIS                JIS, 日語
JIS0208            JIS 0208, 日語
KOI8_R             KOI8-R, 俄語
KSC5601            KS C 5601, 韓文
MS874              Windows 泰國語
MacArabic          Macintosh 阿拉伯語
MacCentralEurope Macintosh Latin-2
MacCroatian        Macintosh 克羅地亞語
MacCyrillic        Macintosh 斯拉夫語
MacDingbat         Macintosh Dingbat
MacGreek           Macintosh 希臘語
MacHebrew          Macintosh 希伯萊語
MacIceland         Macintosh 冰島語
MacRoman           Macintosh 羅馬語
MacRomania         Macintosh 羅馬尼亞語
MacSymbol          Macintosh 符號
MacThai            Macintosh 泰國語
MacTurkish         Macintosh 土耳其語
MacUkraine         Macintosh 烏克蘭語
SJIS               Shift-JIS, 日語
UTF8               UTF-8

發佈了13 篇原創文章 · 獲贊 6 · 訪問量 3萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章