【ML小結2】信息論

信息量:不確定性大小

  1. 信息量等於不確定性的大小。
  2. 自信息:一件不太可能的事發生,要比一件非常可能的事發生,提供更多的信息I(x)=logP(x)I(x)=-logP(x)
  3. 信息熵:量化整個概率分佈中的不確定性總量H(X)=ExP[I(x)]=xXP(x)logP(x)H(X)= E_{x\sim P}[I(x)]=-\sum_{x\in X}P(x)logP(x)

信息的作用:消除不確定性

  1. 信息的作用在於消除不確定性。NLP的大量問題就是尋找相關的信息。
  2. "相關"的信息(如上下文)能夠消除不確定性H(X)H(XY)H(X)\ge H(X|Y)當獲取的信息與所研究的事物毫無關係時等號成立。

互信息:衡量兩個隨機事件的相關性

  1. 定義:衡量兩個隨機事件的相關性I(X;Y)=xX,yYP(x,y)logP(x,y)P(x)P(y)I(X;Y)=\sum_{x\in X,y\in Y}P(x,y)log\frac{P(x,y)}{P(x)P(y)}
  2. 應用
    解決翻譯中二義性問題,如bush既是美國總統布什的名字,也表灌木叢。首先從大量文本中找出和布什一起出現的互信息最大的一些詞,像總統、美國、國會,同樣找出和灌木叢一起出現的互信息最大的詞,像土壤、植物等。然後在翻譯bush時看看上下文中哪一類相關的詞多就可以了。

相對熵與交叉熵

相對熵/KL散度:衡量兩個取值爲正的函數的相似性

  1. 定義:P對Q的KL散度DP(Q)=ExP[logP(x)Q(x)]=xXP(x)logP(x)Q(x)D_P(Q) =E_{x\sim P}[log\frac{P(x)}{Q(x)}]=\sum_{x \in X}P(x)log\frac{P(x)}{Q(x)}KL 散度越小,真實分佈與近似分佈之間的匹配就越好。
  2. 性質:
    (1) 非負性:KL 散度爲 0 當且僅當P 和 Q 在離散型變量的情況下是相同的分佈,或者在連續型變量的情況下是“幾乎處處”相同的
    (2)不對稱性:DP(Q)!=DQ(P)D_P(Q) != D_Q(P)
  3. 應用:衡量兩個常用詞(在語法和語義上)在兩個不同文本中的概率分佈,看是否同義;計算詞頻率-逆向文檔頻率(TF-IDF)

交叉熵:衡量兩個概率分佈間的差異性信息

  1. 定義:用一個猜測的分佈的編碼方式去編碼其真實的分佈,得到的平均編碼長度或者信息量 HP(Q)=EXPlogQ(x)=xXP(x)logQ(x)H_P(Q)=-E_{X\sim P}logQ(x)=-\sum_{x\in X}P(x)logQ(x)上式即爲用猜的的p分佈,去編碼原本真是爲q的分佈,得到的信息量
  2. 應用:交叉熵在機器學習領域中經常作爲最後的損失函數,只有當猜測的分佈約接近於真實分佈,則交叉熵越小。 比如根據自己模型得到的A的概率是80%,得到B的概率是20%,真實的分佈是應該得到A,則意味着得到A的概率是100%,所以 L=iyilog(P(xi))+(1yi)log(1P(xi))L=-\sum_iy_ilog(P(x_i))+(1-y_i)log(1-P(x_i))

相對熵與交叉熵的關係

針對 Q 最小化交叉熵等價於最小化 P 對 Q 的 KL 散度,因爲 Q 並不參與被省略的H(P)H(P)項。
HP(Q)=H(P)+DP(Q)H_P(Q)=H(P)+D_P(Q)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章