14、熵、聯合熵、條件熵、相對熵、互信息的定義

熵:如果一個隨機變量X的可能取值爲X = {x1, x2,…, xk},其概率分佈爲P(X = xi) = pi(i = 1,2, ..., n),則隨機變量X的熵定義爲:

把最前面的負號放到最後,便成了:

上面兩個熵的公式,無論用哪個都行,而且兩者等價,一個意思(這兩個公式在下文中都會用到)。
    聯合熵:兩個隨機變量X,Y的聯合分佈,可以形成聯合熵Joint Entropy,用H(X,Y)表示。
    條件熵:在隨機變量X發生的前提下,隨機變量Y發生所新帶來的熵定義爲Y的條件熵,用H(Y|X)表示,用來衡量在已知隨機變量X的條件下隨機變量Y的不確定性。
    且有此式子成立:H(Y|X) = H(X,Y) – H(X),整個式子表示(X,Y)發生所包含的熵減去X單獨發生包含的熵。至於怎麼得來的請看推導:

 簡單解釋下上面的推導過程。整個式子共6行,其中
第二行推到第三行的依據是邊緣分佈p(x)等於聯合分佈p(x,y)的和;
第三行推到第四行的依據是把公因子logp(x)乘進去,然後把x,y寫在一起;
第四行推到第五行的依據是:因爲兩個sigma都有p(x,y),故提取公因子p(x,y)放到外邊,然後把裏邊的-(log p(x,y) - log p(x))寫成- log (p(x,y)/p(x) ) ;
第五行推到第六行的依據是:p(x,y) = p(x) * p(y|x),故p(x,y) / p(x) =  p(y|x)。
    相對熵:又稱互熵,交叉熵,鑑別信息,Kullback熵,Kullback-Leible散度等。設p(x)、q(x)是X中取值的兩個概率分佈,則p對q的相對熵是:

 通過上面的計算過程,我們發現竟然有H(Y)-I(X,Y) = H(Y|X)。故通過條件熵的定義,有:H(Y|X) = H(X,Y) - H(X),而根據互信息定義展開得到H(Y|X) = H(Y) - I(X,Y),把前者跟後者結合起來,便有I(X,Y)= H(X) + H(Y) - H(X,Y),此結論被多數文獻作爲互信息的定義。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章