信息熵基礎

信息熵

1. 熵

1.1 熵的定義

定義一個用來描述事件的不確定程度的量,即信息量,假設某一事件x 發生的概率是p(x) ,信息量爲I(x)

  1. p(x)=0 的時候,I(x)=+ ;
  2. p(x)=1 的時候,I(x)=0
  3. p(x)<p(y) 的時候,I(x)>I(y)
  4. I(x)>=0
  5. 當事件相互獨立的時候,聯合概率密度p(x,y)=p(x)p(y) ,信息量爲I(x,y)=I(x)+I(y) .即獨立事件同時發生的的信息量等於單個事件信息量之和

I(x)=clog(p(x))

滿足上面的性質,c 是常數,對數的底數任意,於是就將I(x)=log(p(x)) ,稱作信息量。信息量的表達形式是人爲設定的,用來滿足一些對於信息量抽象概念的性質

是用來描述一個系統的平均信息量的,即一個系統的平均不確定程度,假設某一系統(隨機變量)由很多事件(觀測值)(x0,x1,....,xn1) 構成,事件的概率分佈爲(p(x0),p(x1),...,p(xn1)) ,定義:

信息熵

H(x)=i=0n1p(xi)I(xi)=i=0n1p(xi)log(p(xi))

1.2 熵的極大值定理證明:

一個隨機變量的熵值在各個取值的概率都相等的時候取得最大(每個系統的熵是相對的,只有同一系統才能比較熵值的大小,不同的系統不能比較)

簡化寫爲

H=ipilog(pi)pj=1ipi,ijHpi=[1+log(pi)1log(pj)]=log(pi1piki,jkpk)      (1)2Hp2i=1pi11piki,jkpk<0     (2)

(1)式是熵的一階導數,(2)式是熵的二階導,由於:

a . 二階導小於零

b . pi=0 的時候一階導+pi=1 的時候一階導

得出則熵的函數是一個上凸的函數,函數的極值點就是最大值點。

對於每一個ij 都有式子pi1piki,jkpk=1 ,則有所有pi(ij) 相等,記爲p,則有

p1(n1)p=1p=1n

即當且僅當隨機變量所有的事件的概率相等時,隨機變量的熵值取得最大值。

1.3 凸函數性質

注意:這裏的凸函數是指的下凸,上凸稱作凹

凸函數f(x) 有兩個性質

  1. 二階導大於零
  2. 對所有0<=λ<=1x1x2 ,有f(λx1+(1λ)x2)<=λf(x1)+(1λ)f(x2)

Jensen不等式:

對於一個下凸的函數f和一個隨機變量X,有

Ef(X)>=f(EX)

證明:

考慮離散情況,使用數學歸納法:

當只有二項分佈的時候,由凸函數的性質,有p1f(x1)+p2f(x2)>=f(p1x1+p2x2) ,顯然成立。

假設有n-1個分佈點的時候,不等式成立,即已知

i=1n1pif(xi)>=f(i=1k1pixi)

對於n個分佈點:
i=1npif(xi)=pnf(xn)+i=1n1pif(xi)=pnf(xn)+(1pn)i=1n1pi1pnf(xi)>=pnf(xn)+(1pn)f(i=1n1pi1pnxi)>=f(pnxn+(1pn)i=1n1pi1pnxi)=f(i=1npixi)

即得證。

形象地:
這裏寫圖片描述

紅點是隨機分佈的分佈點,綠點是f(Ex) ,黃點所在的縱座標是E(f(x)) ,顯然有f(E(x))<=E(f(x))

2. 聯合熵與條件熵

2.1 聯合熵

對於二元的概率,聯合熵爲

H(X,Y)=p(x,y)log(p(x,y))=E(I(x,y))

2.2 條件熵

當X取某一觀測值,條件概率爲p(Y|X=x) ,此時對於隨機變量Y來說,在X=x的條件下熵是:

H(Y|X=x)=p(y|x)log(p(y|x))

條件熵就定義爲當X取遍所有觀測值時,隨機變量Y的熵的期望
H(Y|X)=p(x)H(Y|X=x)=xp(x)yp(y|x)log(p(y|x))=xyp(x,y)log(p(y|x))

鏈式法則:
H(X,Y)=xyp(x,y)log(p(x,y))=xyp(x,y)log(p(y|x)p(x))=xyp(x,y)log(p(y|x))xyp(x,y)log(p(x))=H(Y|X)xyp(x,y)log(p(x))=H(Y|X)xp(x)log(x)=H(Y|X)+H(X)

也可以由
log(p(x,y))=log(p(y|x))log(x)

兩邊同時取期望得到

2.3 聯合熵和條件熵的辨析

​ 條件熵是在確定某一條件的情況下,系統的平均不確定度。此時如果加上自身的不確定度,則等於系統的整體不確定度。即條件確定,條件下的狀態確定,則系統確定。

3. 相對熵與互信息

3.1 相對熵

假設有一個隨機變量X,對於他所有的取值x,都對應着兩個分佈p和q,即

Xpqx0p0q0x1p1q1.........xn1pn1qn1

假設相對熵描述對於相同取值的隨機變量的不同分佈之間的距離
D(p||q)=ipilog(piqi)

辨析:

a. 距離是相對的而且是不對稱的,D(p||q)D(q||p) ,在度量的時候要麼在D(p||q) 的框架下,要麼反之,不能混用。

b.D(p||q)>=0 ,當且僅當所有pi=qi 的時候取等號。

證明:

D(p||q)=ipilog(piqi)=ipilog(qipi)<=log(ipiqipi)=log(sumipi)=log(1)=0

D(p||q)>=0 ,只有當所有pi=cqi ,的時候取等號,又ipi=iqi=1 ,有ipi=ciqi=iqi ,得c=1 。即只有當所有pi=qi 的時候,才能取等號。

c.約定0log00=0 ,0log(0q)=0 ,plog(p0)=

3.2 互信息

互信息用來描述兩個隨機變量之間的相關性,定義爲聯合概率密度和概率密度之積 的相對熵。

I(X;Y)=xyp(x,y)log(p(x,y)p(x)p(y))=D(p(x,y)||p(x)p(y))

辨析:

a. 當I(X;Y)值比較大的時候,表明相關性很強,因爲p(x)p(y)表示如果兩個隨機變量獨立分佈的時候的概率密度。反之,如果I(X;Y)的值很小甚至接近於0,表明X和Y的相關性很弱,因爲聯合概率密度接近於獨立分佈的概率密度。

b.互信息是對稱的,I(X;Y)=I(Y;X),只是分母分子不能反。

c.互信息的鏈式規則:

I(X;Y)=xyp(x,y)log(p(x,y)p(x)p(y))=x,yp(x,y)log(p(x|y)p(x))=xp(x)log(p(x))(x,yp(x,y)log(p(x|y)))=H(X)H(X|Y)=H(Y)H(Y|X)

互信息也可以解釋爲給定Y的情況下X的不確定程度的減少量,如果給定Y,X的熵並沒有變少,則X和Y相對獨立,減少量就少。反之,給定Y後熵的減少量多,則X和Y之間存在很強的相關性。

3.3 自信息

現有的鏈式法則有:

H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)I(X;Y)=H(X)H(X|Y)=H(Y)H(Y|X)


I(X;Y)=H(X)+H(Y)H(X,Y)

自信息
I(X;X)=H(X)+H(X)H(X,X)=H(X)

這裏寫圖片描述
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章