“聯通”兩個字的編碼特殊性

當我們在 windows 的記事本里新建一個文件,輸入"聯通"兩個字之後,保存,關閉,然後再次打開,會發現這兩個字已經消失了,代之的是幾個亂碼!其實這是因爲GB2312編碼與UTF8編碼產生了編碼衝撞的原因。

當你新建一個文本文件時,記事本的編碼默認是ANSI, 如果你在ANSI的編碼輸入漢字,那麼他實際就是GB系列的編碼方式,在這種編碼下,"聯通"的內碼是:

c1 1100 0001

aa 1010 1010

cd 1100 1101

a8 1010 1000

注意到了嗎?第一二個字節、第三四個字節的起始部分的都是"110"和"10",正好與UTF8規則裏的兩字節模板是一致的,於是再次打開記事本時,記事本就誤認爲這是一個UTF8編碼的文件,讓我們把第一個字節的110和第二個字節的10去掉,我們就得到了"00001 101010",再把各位對齊,補上前導的0,就得到了"0000 0000 0110 1010",不好意思,這是UNICODE的006A,也就是小寫的字母"j",而之後的兩字節用UTF8解碼之後是0368,這個字符什麼也不是。這就是隻有"聯通"兩個字的文件沒有辦法在記事本里正常顯示的原因。 

而如果你在"聯通"之後多輸入幾個字,其他的字的編碼不見得又恰好是110和10開始的字節,這樣再次打開時,記事本就不會堅持這是一個utf8編碼的文件,而會用ANSI的方式解讀之,這時亂碼又不出現了。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章