《數學之美》——第六章 個人筆記

                                           數學之美

最近在讀《數學之美》這本書,做一下個人筆記。看的是PDF,看完後會買一本的哦!版權意識還是有的。

ps:圖片文字都是這本書中的內容,侵權立刪。會有點自己的理解。

第六章     信息的度量和作用

1    信息熵

從一個角度可以認爲信息量就等於不確定性的多少。

信息熵(Entropy),一般用符號H表示,單位是比特。

熵的定義:


變量的不確定性越大,熵也就越大。

文中有個關於冗餘度的:重複的內容很多,信息量就小,冗餘度就大。


2    信息的作用


一個事物內部會存有隨機性,也就是不確定性:U。引入信息 I 消除不確定性,而信息量取決於U的大小。當 I < U 時,可以消除一部分不確定性,也就是說新的不確定性:U' = U - I

⭐條件熵

假設X和Y是兩個隨機變量,已知X的隨機分佈P(X),那麼也就知道了X的熵。現在還知道Y和X的聯合概率密度,以及在Y取不同值的前提下X的概率分佈,即條件概率分佈。定義在Y的條件下的條件熵爲:


H(X) >= H(X丨Y),也就是說多了Y的信息之後,關於X的不確定性下降了。在統計語言模型中,如果把Y看成是前一個字,那麼在數學上就證明了二元模型的不確定性小於一元模型。同理,三元模型比二元好。(用條件熵解釋了模型複雜度)

⭐信息的作用在於消除不確定性,NLP的大量問題就是尋找相關的信息。


3    互信息

互信息(Mutual Information):作爲兩個隨機事件“相關性”的量化度量。

假定有兩個隨機事件X 和 Y ,它們的互信息定義如下:





4   延伸閱讀:相對熵(交叉熵)

相對熵用來衡量兩個取值爲正數的函數的相似性,定義:


三個結論:

①對於兩個完全相同的函數,它們的相對熵是零。

②相對熵越大,兩個函數差異越大;反之,則相反。

③對於概率分佈或者概率密度函數,如果取值均大於零,相對熵可以度量兩個隨機分佈的差異性。

⭐相對熵是不對稱的:


爲了計算方便:將上面的不等式兩邊取平均,即





發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章