數學之美
最近在讀《數學之美》這本書,做一下個人筆記。看的是PDF,看完後會買一本的哦!版權意識還是有的。
ps:圖片文字都是這本書中的內容,侵權立刪。會有點自己的理解。
第六章 信息的度量和作用
1 信息熵
從一個角度可以認爲信息量就等於不確定性的多少。
信息熵(Entropy),一般用符號H表示,單位是比特。
熵的定義:
變量的不確定性越大,熵也就越大。
文中有個關於冗餘度的:重複的內容很多,信息量就小,冗餘度就大。
2 信息的作用
一個事物內部會存有隨機性,也就是不確定性:U。引入信息 I 消除不確定性,而信息量取決於U的大小。當 I < U 時,可以消除一部分不確定性,也就是說新的不確定性:U' = U - I 。
⭐條件熵
假設X和Y是兩個隨機變量,已知X的隨機分佈P(X),那麼也就知道了X的熵。現在還知道Y和X的聯合概率密度,以及在Y取不同值的前提下X的概率分佈,即條件概率分佈。定義在Y的條件下的條件熵爲:
H(X) >= H(X丨Y),也就是說多了Y的信息之後,關於X的不確定性下降了。在統計語言模型中,如果把Y看成是前一個字,那麼在數學上就證明了二元模型的不確定性小於一元模型。同理,三元模型比二元好。(用條件熵解釋了模型複雜度)
⭐信息的作用在於消除不確定性,NLP的大量問題就是尋找相關的信息。
3 互信息
假定有兩個隨機事件X 和 Y ,它們的互信息定義如下:
4 延伸閱讀:相對熵(交叉熵)
相對熵用來衡量兩個取值爲正數的函數的相似性,定義:
三個結論:
①對於兩個完全相同的函數,它們的相對熵是零。
②相對熵越大,兩個函數差異越大;反之,則相反。
③對於概率分佈或者概率密度函數,如果取值均大於零,相對熵可以度量兩個隨機分佈的差異性。
⭐相對熵是不對稱的:
爲了計算方便:將上面的不等式兩邊取平均,即