熵,哈夫曼編碼,二進制

計算機以及通信領域的熵一般指信息熵。本文介紹信息熵與哈夫曼編碼的關係,以及二進制在信息熵和哈夫曼編碼中的位置。

  1. 信息熵
    香農提出,把信息中的冗餘排除後剩餘的平均信息量就是信息熵。信息熵是對不確定性的度量。信息熵越大,不確定性越大。
    對於一個隨機變量X,其信息熵爲:
    H(X)=xP(x)loga(P(x))H(X)=-\sum\limits_x P(x)log_a(P(x)).
    當X服從均勻分佈時,其不確定或熵最大。當X完全確定時,熵爲0.
    其中aa可以取任意值。
    在信息論中,香農於1948年發現信源編碼定理或香農編碼定理:
    給定信源X={xi}X=\{x_i\}以及概率分佈P(X)P(X), 進行某種無損K進制編碼後得C={ci}C=\{c_i\}, 則
    H(X)loga(K)E[L]H(X)loga(K)+1\frac{H(X)}{log_a(K)}\leq E[L]\leq\frac{H(X)}{log_a(K)}+1,
    其中L爲對X進行編碼後的隨機編碼C的長度。
    該定理說明,X進行無損編碼後平均編碼長度大於等於以K爲底的信息熵。
    注:H(X)loga(K)\frac{H(X)}{log_a(K)}相當於更換H(X)H(X)的底爲KK

  2. 哈夫曼編碼
    基於香農編碼定理思想,哈夫曼於1952年提出一種無損二進制編碼方法,屬於熵編碼中的一種。
    其主要思想是通過構建最優二叉樹(哈夫曼數),也就是帶權路徑長度最短的二叉樹,來對字符集進行編碼。哈夫曼證明其是一種最優二進制編碼,也就是說路徑之和最小。
    E[L]=P(si)Length(si)E[L]=\sum P(s_i)*Length(s_i)
    也就是說平均bit數最小。
    當概率是2的冪次方時,哈夫曼編碼可達到信息熵所指明的最小平均bit數。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章