計算機以及通信領域的熵一般指信息熵。本文介紹信息熵與哈夫曼編碼的關係,以及二進制在信息熵和哈夫曼編碼中的位置。
-
信息熵
香農提出,把信息中的冗餘排除後剩餘的平均信息量就是信息熵。信息熵是對不確定性的度量。信息熵越大,不確定性越大。
對於一個隨機變量X,其信息熵爲:
.
當X服從均勻分佈時,其不確定或熵最大。當X完全確定時,熵爲0.
其中可以取任意值。
在信息論中,香農於1948年發現信源編碼定理或香農編碼定理:
給定信源以及概率分佈, 進行某種無損K進制編碼後得, 則
,
其中L爲對X進行編碼後的隨機編碼C的長度。
該定理說明,X進行無損編碼後平均編碼長度大於等於以K爲底的信息熵。
注:相當於更換的底爲。 -
哈夫曼編碼
基於香農編碼定理思想,哈夫曼於1952年提出一種無損二進制編碼方法,屬於熵編碼中的一種。
其主要思想是通過構建最優二叉樹(哈夫曼數),也就是帶權路徑長度最短的二叉樹,來對字符集進行編碼。哈夫曼證明其是一種最優二進制編碼,也就是說路徑之和最小。
也就是說平均bit數最小。
當概率是2的冪次方時,哈夫曼編碼可達到信息熵所指明的最小平均bit數。