信息量:不確定性大小
- 信息量等於不確定性的大小。
- 自信息:一件不太可能的事發生,要比一件非常可能的事發生,提供更多的信息I(x)=−logP(x)
- 信息熵:量化整個概率分佈中的不確定性總量H(X)=Ex∼P[I(x)]=−x∈X∑P(x)logP(x)
信息的作用:消除不確定性
- 信息的作用在於消除不確定性。NLP的大量問題就是尋找相關的信息。
- "相關"的信息(如上下文)能夠消除不確定性H(X)≥H(X∣Y)當獲取的信息與所研究的事物毫無關係時等號成立。
互信息:衡量兩個隨機事件的相關性
- 定義:衡量兩個隨機事件的相關性I(X;Y)=x∈X,y∈Y∑P(x,y)logP(x)P(y)P(x,y)
- 應用
解決翻譯中二義性問題,如bush既是美國總統布什的名字,也表灌木叢。首先從大量文本中找出和布什一起出現的互信息最大的一些詞,像總統、美國、國會,同樣找出和灌木叢一起出現的互信息最大的詞,像土壤、植物等。然後在翻譯bush時看看上下文中哪一類相關的詞多就可以了。
相對熵與交叉熵
相對熵/KL散度:衡量兩個取值爲正的函數的相似性
- 定義:P對Q的KL散度DP(Q)=Ex∼P[logQ(x)P(x)]=x∈X∑P(x)logQ(x)P(x)KL 散度越小,真實分佈與近似分佈之間的匹配就越好。
- 性質:
(1) 非負性:KL 散度爲 0 當且僅當P 和 Q 在離散型變量的情況下是相同的分佈,或者在連續型變量的情況下是“幾乎處處”相同的
(2)不對稱性:DP(Q)!=DQ(P)
- 應用:衡量兩個常用詞(在語法和語義上)在兩個不同文本中的概率分佈,看是否同義;計算詞頻率-逆向文檔頻率(TF-IDF)
交叉熵:衡量兩個概率分佈間的差異性信息
- 定義:用一個猜測的分佈的編碼方式去編碼其真實的分佈,得到的平均編碼長度或者信息量 HP(Q)=−EX∼PlogQ(x)=−x∈X∑P(x)logQ(x)上式即爲用猜的的p分佈,去編碼原本真是爲q的分佈,得到的信息量
- 應用:交叉熵在機器學習領域中經常作爲最後的損失函數,只有當猜測的分佈約接近於真實分佈,則交叉熵越小。 比如根據自己模型得到的A的概率是80%,得到B的概率是20%,真實的分佈是應該得到A,則意味着得到A的概率是100%,所以 L=−i∑yilog(P(xi))+(1−yi)log(1−P(xi))
相對熵與交叉熵的關係
針對 Q 最小化交叉熵等價於最小化 P 對 Q 的 KL 散度,因爲 Q 並不參與被省略的H(P)項。
HP(Q)=H(P)+DP(Q)