字符編碼GBK,UTF-8

        GBK漢字編碼標準之一,全稱《漢字內碼擴展規範》。GBK編碼,是在GB2312-80標準基礎上的內碼擴展規範,使用了雙字節碼方案,其編碼範圍從8140至FEFE(剔除xx7F),共23940個碼位,共收錄了21003個漢字,完全兼容GB2312標準。英文佔一字節,中文2字節。比如傳奇世界2的編碼爲(16進制):b4 ab(傳) c6 e6(奇)  ca c0(世) bd e7(界)  32(2)。

        GB2312《信息交換用漢字編碼字符集》是由中國國家標準總局1980年發佈,基本集共收入漢字6763個和非漢字圖形字符682個。GB 2312的出現,基本滿足了漢字的計算機處理需要,它所收錄的漢字已經覆蓋中國大陸99.75%的使用頻率。對於人名、古漢語等方面出現的罕用字,GB 2312不能處理,這導致了後來GBK及GB 18030漢字字符集的出現。每個漢字及符號以兩個字節來表示。第一個字節稱爲“高位字節”(也稱“區字節)”,第二個字節稱爲“低位字節”(也稱“位字節”)。

        UTF-8(8-bit Unicode Transformation Format)是一種針對Unicode的可變長度字符編碼,又稱萬國碼。utf-8理論的編碼的長度最大可以達到6字節。utf-8漢字英文和中文字符一般佔3個字節!!數字和英文字符一般佔1個字節。比如傳奇世界2的編碼爲(16進制):e4 bc a0 (傳)e5  a5 87(奇) e4 b8  96(世) e7 95 8c(界)  32(2)。

        ps:好記性不如爛筆頭。

發佈了86 篇原創文章 · 獲贊 23 · 訪問量 36萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章