機器學習常用的熵

原創

2020-06-02 15:56

熵

關於信息量、信息熵可以參考我的這篇文章https://blog.csdn.net/blank_tj/article/details/82056413
信息量：
$I (x) = - l o g_{2} p (x)$
我們把這個公式叫做信息量的公式，前面的負號確保了信息一定是正數或者是0(低概率事件帶來高的信息量)。
底是2的時候，單位爲bit。底是e的時候，單位爲nat。
聯合信息量：
$I (x_{i}, y_{i}) = - l o g p (x_{i}, y_{i})$
條件信息量：
$I (y_{i} | x_{i}) = - l o g p (y_{i} | x_{i})$

信息量度量的是一個具體事件發生了所帶來的信息，而熵則是在結果出來之前對可能產生的信息量的期望——考慮該隨機變量的所有可能取值，即所有可能發生事件所帶來的信息量的期望。
信息熵公式：
$H (x) = - \sum p (x) l o g_{2} p (x)$

複合熵（聯合熵）：
$H (x, y) = - \sum_{i = 1}^{n} \sum_{j = 1}^{m} p (x_{i}, y_{j}) l o g p (x_{i}, y_{j})$
也可以推廣到更多維度，同理。

條件熵：
$H (x, y) = - \sum_{i = 1}^{n} \sum_{j = 1}^{m} p (y_{j}) p (x_{i} | y_{j}) l o g p (x_{i} | y_{j})$ 離散型

$H (x, y) = - \iint f (y) f (x | y) l o g (x | y) d x d y$ 連續型

當熵和條件熵中的概率由數據估計(特別是極大似然估計)得到的時候，所對應的熵與條件熵分別稱爲經驗熵(empirical entropy)和經驗條件熵(empirical conditional entropy)。

上面的式子表明，只要你能夠得到聯合分佈和y的分佈就能夠求出條件熵了。事實上，還能夠更加簡化成爲常見的形式：
這裏利用上面的公式（以離散型爲例子）直接推導，有
$H (x | y) = H (x, y) - H (y)$
同理：
$H (y | x) = H (x, y) - H (x)$
合併上式得：
$H (y | x) + H (x) = H (x, y) = H (x | y) + H (y)$

相對熵

相對熵又稱互熵，交叉熵，鑑別信息，Kullback熵，Kullback-Leible散度（即KL散度）等。
設p(x)和q(x)是取值的兩個概率分佈，則p對q的相對熵爲：
$D (p | | q) = \sum_{x} p (x) l o g \frac{p (x)}{q (x)} = E_{p (x)} (l o g \frac{p (x)}{q (x)})$

互信息

互信息(Mutual Information)是信息論裏一種有用的信息度量，它可以看成是一個隨機變量中包含的關於另一個隨機變量的信息量，或者說是一個隨機變量由於已知另一個隨機變量而減少的不確定性。

$I (X, Y) = D (P (X < Y) | | P (X) P (Y)) = \sum_{x, y} p (x, y) l o g \frac{p (x, y)}{p (x) p (y)}$

$H (X) - I (X, Y) = - \sum_{x} p (x) l o g p (x) - \sum_{x, y} p (x, y) l o g \frac{p (x, y)}{p (x) p (y)} = - \sum_{x} (\sum_{y} p (x, y)) l o g p (x) - \sum_{x, y} p (x, y) l o g \frac{p (x, y)}{p (x) p (y)} = - \sum_{x, y} p (x, y) l o g p (x) - \sum_{x, y} p (x, y) l o g \frac{p (x, y)}{p (x) p (y)} = - \sum_{x, y} (l o g p (x) * \frac{p (x, y)}{p (x) p (y)}) = - \sum_{x, y} p (x, y) l o g \frac{p (x, y)}{p (y)} = - \sum_{x, y} p (x, y) l o g p (x | y) = H (X | Y)$

從這個公式可以知道，X的熵減去X和Y的互信息之後，可以得到在Y給定的情況下X的熵。
所以：
$H (X | Y) = H (X) - I (X, Y) I (X, Y) = H (X) - H (X | Y)$

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

機器學習常用的熵

熵

相對熵

互信息

推薦系統學習祕籍

十大機器學習算法之EM算法講解及推導

機器學習常用的熵

機器學習算法之Adaboost原理和計算過程

機器學習之極大似然估計的詳細理解

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結