漢字佔用的大小

原創

2020-02-21 09:11

這個與採用的編碼有關，GBK/GB2312編碼是2個字節，但是unicode/utf-8等就不同了，這些編碼裏面漢字是長度不是一定的，有的長、有的短，2～4字節。

在查找 UTF-8 編碼資料時發現，很多的帖子說的 UTF-8 編碼裏，一個漢字佔用3個字節，有的還做了個證明，大概是這樣的，創建一個沒有BOM的UTF-8編碼的文本文件，裏面保存了幾個漢字，然後查看文件的大小。我覺得這樣的證明沒有一點說服力，因爲 UTF-8 是變長的，1-6個字節，少量的漢字檢測是不能說明所有的漢字都是的。

後來我又查看了字符映射表－漢語，找到了正確的答案，少數是漢字每個佔用3個字節，多數佔用4個字節。

佔用3個字節的範圍

U+2E80 - U+2EF3 : 0xE2 0xBA 0x80 - 0xE2 0xBB 0xB3      共 115 個
U+2F00 - U+2FD5 : 0xE2 0xBC 0x80 - 0xE2 0xBF 0x95      共 213 個
U+3005 - U+3029 : 0xE3 0x80 0x85 - 0xE3 0x80 0xA9      共 36 個
U+3038 - U+4DB5 : 0xE3 0x80 0xB8 - 0xE4 0xB6 0xB5      共 7549 個
U+4E00 - U+FA6A : 0xE4 0xB8 0x80 - 0xEF 0xA9 0xAA      共 44138 個
U+FA70 - U+FAD9 : 0xEF 0xA9 0xB0 - 0xEF 0xAB 0x99      共 105 個

合計： 52156 個

佔用4個字節的範圍

U+20000 - U+2FA1D : 0xF0 0xA0 0x80 0x80 - 0xF0 0xAF 0xA8 0x9D      共 64029 個

發佈了26 篇原創文章 · 獲贊 7 · 訪問量 12萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Linux平臺上DPDK入門指南

目錄 1. 簡介 1.1. 文檔地圖 2. 系統要求 2.1. X86 上預先設置 BIOS 2.2. 編譯DPDK 2.3. 運行DPDK應用程序 2.3.1. 系統軟件 2.3.2. 在 Linux 環境中使用 Hugepages 2

2020-07-08 06:34:34

DPDK如何釋放大頁內存（巨頁內存hugepage）

按照官方文檔說的使用 int rte_eal_init(int argc, char **argv); 使用上面初始化的EAL應該使用下面的cleanup函數釋放其初始化的資源 int rte_eal_cleanup(); 但是，並

2020-07-08 06:34:33

C#正則表達式入門

C#正則表達式入門 http://developer.51cto.com/art/200908/144346.htm 作者將自己在學習正則表達式中的心得和筆記作了個總結性文章，希望對初學C#正則表達式的讀者有幫助，也算是C#

2020-07-07 10:12:49

LR+Sigmod+Softmax+CE

邏輯迴歸LR是機器學習中一種主流的分類模型，主要用於二分類問題。在這之前，線性迴歸多用來解決迴歸和分類問題，但是在分類問題中表現不佳，其輸出值是不確定範圍的。 LR將線性迴歸模型不確定範圍的輸出值通過Sigmod函數映射到（0,1）之間

2020-07-07 06:03:29

BN+LN+GN

Normalization是爲解決數據間獨立同分布問題而提出的，獨立指的是去除特徵之間的關聯性，同分布指的是使所有特徵具有相同的均值和方差，Internal Covariate Shift 指的是源空間和目標空間條件概率一致，但邊緣概率不

2020-07-07 06:03:29

GD+Optimize

優化問題的框架，給定一個與參數x有關的目標函數J(x)，求使得J(x)最小的參數x。通過不斷向梯度負方向移動參數來求解。 BGD指批量梯度下降，要計算整個Batch中的梯度。優點：容易求得最優解。缺點：速度慢，數據量大時不能行。 SGD指

2020-07-07 06:03:29

面向對象的六大原則之單一職責原則

單一職責原則(Single Responsibility Principle, SRP)：一個類只負責一個功能領域中的相應職責，或者可以定義爲：就一個類而言，應該只有一個引起它變化的原因。具體例子和講解在以下各大神的博客裏，不在重複造輪

2020-07-06 18:00:16

STM32F103學習之四種點燈方式

STM32F103學習之四種點燈方式在古老的傳說中有一萬種點燈方式，現在咱先學它四種方法1：SET和RESET方法 //GPIO_SetBits 對IO口置位，輸出高電平 void GPIO_SetBits(GPIO_Ty

亮亮。。。

2020-07-06 12:09:35

PHP 面向對象基礎知識

面向對象（OOP） object oriented programming 1.什麼是面向對象？世間萬物都是對象，抽象的也是對象，可見的不可見的都是對象。面向對象就是以人類的思維方式去構建代碼，讓讀者能夠更好的理解代碼。面向

2020-07-06 12:09:35

應聘——大數據研發（1）-MapReduce編程

MapReduce 本文參見《MapReduce Design Pattern》文中[實例代碼] 第一章：設計模式 Reader 將輸入數據轉換成key-value的形式，通常Key爲數據塊存放的地址，Value爲數據。 Map

2020-07-06 11:44:27

應聘——總Plan

最近又要做實驗又要準備面試，有點亂，所以做個計劃。一共三條線：坦克線，輔助線，法師線。坦克線——基礎數據結構算法面向對象 JVM 並行編程其他《程序員面試金典》數據結構算法概念鏈表廣度優先

2020-07-06 11:44:27

北斗簡介

1.北斗衛星導航系統中國北斗衛星導航系統（BeiDou Navigation Satellite System，BDS）是中國自行研製的全球衛星導航系統.北斗衛星導航系統由空間段、地面段和用戶段三部分組成，可在全球範圍內全天候、

2020-07-06 10:34:21

按位與、或、非，無符號右移

按位與運算符（&）參加運算的兩個數據，按二進制位進行“與”運算。運算規則：0&0=0; 0&1=0; 1&0=0; 1&1=1; 即：兩位同時爲“1”，結果才爲“1”，否則爲0 例如：3&5 即 0

2020-07-06 08:46:21

關於循環、數組定義的理解

由於之前一些原因，我的基本知識不夠，所以有時候以爲是本來就是這樣的一些東西其實是錯的，這也影響了我的編程，這裏因爲上一篇的簡單水題我竟然出錯了，這時候纔來好好研究了一下下，越發相信這種說法：“學得越多越覺得自己學得不夠”。這裏我做了一點

大雾(*^▽^*)

2020-07-06 08:24:39

深入解析C++中的三個修飾符

static 是c++中很常用的修飾符，它被用來控制變量的存儲方式和可見性，下面我將從 static 修飾符的產生原因、作用談起，全面分析static

2020-07-06 02:41:22

24小時熱門文章

最新文章

最新評論文章