機器學習常用的熵

關於信息量、信息熵可以參考我的這篇文章https://blog.csdn.net/blank_tj/article/details/82056413
信息量:
I(x)=log2 p(x)
我們把這個公式叫做信息量的公式,前面的負號確保了信息一定是正數或者是0(低概率事件帶來高的信息量)。
底是2的時候,單位爲bit。底是e的時候,單位爲nat。
聯合信息量:
I(xi,yi)=log p(xi,yi)
條件信息量:
I(yi|xi)=log p(yi|xi)

信息量度量的是一個具體事件發生了所帶來的信息,而熵則是在結果出來之前對可能產生的信息量的期望——考慮該隨機變量的所有可能取值,即所有可能發生事件所帶來的信息量的期望。
信息熵公式:
H(x)=p(x)log2 p(x)

複合熵(聯合熵):
H(x,y)=i=1nj=1mp(xi,yj)log p(xi,yj)
也可以推廣到更多維度,同理。

條件熵:
H(x,y)=i=1nj=1mp(yj)p(xi|yj)log p(xi|yj) 離散型

H(x,y)=f(y)f(x|y)log(x|y)dxdy 連續型

當熵和條件熵中的概率由數據估計(特別是極大似然估計)得到的時候,所對應的熵與條件熵分別稱爲經驗熵(empirical entropy)和經驗條件熵(empirical conditional entropy)。

上面的式子表明,只要你能夠得到聯合分佈和y的分佈就能夠求出條件熵了。事實上,還能夠更加簡化成爲常見的形式:
這裏利用上面的公式(以離散型爲例子)直接推導,有
H(x|y)=H(x,y)H(y)
同理:
H(y|x)=H(x,y)H(x)
合併上式得:
H(y|x)+H(x)=H(x,y)=H(x|y)+H(y)

相對熵

相對熵又稱互熵,交叉熵,鑑別信息,Kullback熵,Kullback-Leible散度(即KL散度)等。
設p(x)和q(x)是取值的兩個概率分佈,則p對q的相對熵爲:
D(p||q)=xp(x)logp(x)q(x)=Ep(x)(logp(x)q(x))

在一定程度上面,相對熵可以度量兩個隨機變量的距離。當兩個隨機分佈相同的時候,他們的相對熵爲0,當兩個隨機分佈的差別增大的時候,他們之間的相對熵也會增大。 但是事實上面,他並不是一個真正的距離。因爲相對熵是不具有對稱性的,而且都不爲負。
D(p||q)D(q||p)
D(p||q)0D(q||p)0

互信息

互信息(Mutual Information)是信息論裏一種有用的信息度量,它可以看成是一個隨機變量中包含的關於另一個隨機變量的信息量,或者說是一個隨機變量由於已知另一個隨機變量而減少的不確定性。

I(X,Y)=D(P(X<Y)||P(X)P(Y)) =x,yp(x,y)logp(x,y)p(x)p(y)

H(X)I(X,Y)=xp(x)log p(x)x,yp(x,y)logp(x,y)p(x)p(y)=x(yp(x,y))log p(x)x,yp(x,y)logp(x,y)p(x)p(y)=x,yp(x,y)log p(x)x,yp(x,y)logp(x,y)p(x)p(y)=x,y(log p(x)p(x,y)p(x)p(y))=x,yp(x,y)logp(x,y)p(y)=x,yp(x,y)log p(x|y)=H(X|Y)

從這個公式可以知道,X的熵減去X和Y的互信息之後,可以得到在Y給定的情況下X的熵。
所以:
H(X|Y)=H(X)I(X,Y)I(X,Y)=H(X)H(X|Y)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章