Python基礎之編碼問題

起因:計算機只能處理數字,如果要處理文本,就要把文本轉換成數字。一個字節(byte)是8(bit),要處理中文的話至少需要兩個字節並且要避免與ASC11編碼表衝突,因此出現了GB2312編碼專門爲中文編碼。多國有各自的編碼,那麼在多語言的混合文本里會顯示亂碼,於是Unicode標準便出現了。

ASCII與Unicode區別:ASCII編碼是1個字節,而Unicode編碼通常是2個字節。如果把ASCII編碼的A用Unicode編碼,只需要在前面補0就可以。

UTF-8(可變長編碼)的出現:如果很少涉及中文等多字節,那麼使用unicode將會非常浪費存儲空間。只支持ASCII編碼的一般可以在UTF-8下繼續正常使用。

在計算機內存中,統一使用Unicode編碼,當需要保存到硬盤或者需要傳輸的時候,就轉換爲UTF-8編碼。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章