熵
關於信息量、信息熵可以參考我的這篇文章https://blog.csdn.net/blank_tj/article/details/82056413
信息量:
I(x)=−log2 p(x)
我們把這個公式叫做信息量的公式,前面的負號確保了信息一定是正數或者是0(低概率事件帶來高的信息量)。
底是2的時候,單位爲bit。底是e的時候,單位爲nat。
聯合信息量:
I(xi,yi)=−log p(xi,yi)
條件信息量:
I(yi|xi)=−log p(yi|xi)
信息量度量的是一個具體事件發生了所帶來的信息,而熵則是在結果出來之前對可能產生的信息量的期望——考慮該隨機變量的所有可能取值,即所有可能發生事件所帶來的信息量的期望。
信息熵公式:
H(x)=−∑p(x)log2 p(x)
複合熵(聯合熵):
H(x,y)=−∑ni=1∑mj=1p(xi,yj)log p(xi,yj)
也可以推廣到更多維度,同理。
條件熵:
H(x,y)=−∑ni=1∑mj=1p(yj)p(xi|yj)log p(xi|yj) 離散型
H(x,y)=−∬f(y)f(x|y)log(x|y)dxdy 連續型
當熵和條件熵中的概率由數據估計(特別是極大似然估計)得到的時候,所對應的熵與條件熵分別稱爲經驗熵(empirical entropy)和經驗條件熵(empirical conditional entropy)。
上面的式子表明,只要你能夠得到聯合分佈和y的分佈就能夠求出條件熵了。事實上,還能夠更加簡化成爲常見的形式:
這裏利用上面的公式(以離散型爲例子)直接推導,有
H(x|y)=H(x,y)−H(y)
同理:
H(y|x)=H(x,y)−H(x)
合併上式得:
H(y|x)+H(x)=H(x,y)=H(x|y)+H(y)
相對熵
相對熵又稱互熵,交叉熵,鑑別信息,Kullback熵,Kullback-Leible散度(即KL散度)等。
設p(x)和q(x)是取值的兩個概率分佈,則p對q的相對熵爲:
D(p||q)=∑xp(x)logp(x)q(x)=Ep(x)(logp(x)q(x))
在一定程度上面,相對熵可以度量兩個隨機變量的距離。當兩個隨機分佈相同的時候,他們的相對熵爲0,當兩個隨機分佈的差別增大的時候,他們之間的相對熵也會增大。 但是事實上面,他並不是一個真正的距離。因爲相對熵是不具有對稱性的,而且都不爲負。
D(p||q)≠D(q||p)
D(p||q)≥0,D(q||p)≥0
互信息
互信息(Mutual Information)是信息論裏一種有用的信息度量,它可以看成是一個隨機變量中包含的關於另一個隨機變量的信息量,或者說是一個隨機變量由於已知另一個隨機變量而減少的不確定性。
I(X,Y)=D(P(X<Y)||P(X)P(Y)) =∑x,yp(x,y)logp(x,y)p(x)p(y)
H(X)−I(X,Y)=−∑xp(x)log p(x)−∑x,yp(x,y)logp(x,y)p(x)p(y)=−∑x(∑yp(x,y))log p(x)−∑x,yp(x,y)logp(x,y)p(x)p(y)=−∑x,yp(x,y)log p(x)−∑x,yp(x,y)logp(x,y)p(x)p(y)=−∑x,y(log p(x)∗p(x,y)p(x)p(y))=−∑x,yp(x,y)logp(x,y)p(y)=−∑x,yp(x,y)log p(x|y)=H(X|Y)
從這個公式可以知道,X的熵減去X和Y的互信息之後,可以得到在Y給定的情況下X的熵。
所以:
H(X|Y)=H(X)−I(X,Y)I(X,Y)=H(X)−H(X|Y)