【ML小結2】信息論

原創

2020-06-28 17:24

信息量：不確定性大小

信息量等於不確定性的大小。
自信息：一件不太可能的事發生，要比一件非常可能的事發生，提供更多的信息 $I(x)=-logP(x)$
信息熵：量化整個概率分佈中的不確定性總量 $H(X)= E_{x\sim P}[I(x)]=-\sum_{x\in X}P(x)logP(x)$

信息的作用：消除不確定性

信息的作用在於消除不確定性。NLP的大量問題就是尋找相關的信息。
"相關"的信息（如上下文）能夠消除不確定性 $H(X)\ge H(X|Y)$ 當獲取的信息與所研究的事物毫無關係時等號成立。

互信息：衡量兩個隨機事件的相關性

定義：衡量兩個隨機事件的相關性 $I(X;Y)=\sum_{x\in X,y\in Y}P(x,y)log\frac{P(x,y)}{P(x)P(y)}$
應用
解決翻譯中二義性問題，如bush既是美國總統布什的名字，也表灌木叢。首先從大量文本中找出和布什一起出現的互信息最大的一些詞，像總統、美國、國會，同樣找出和灌木叢一起出現的互信息最大的詞，像土壤、植物等。然後在翻譯bush時看看上下文中哪一類相關的詞多就可以了。

相對熵與交叉熵

相對熵/KL散度：衡量兩個取值爲正的函數的相似性

定義：P對Q的KL散度 $D_P(Q) =E_{x\sim P}[log\frac{P(x)}{Q(x)}]=\sum_{x \in X}P(x)log\frac{P(x)}{Q(x)}$ KL 散度越小,真實分佈與近似分佈之間的匹配就越好。
性質：
（1）非負性：KL 散度爲 0 當且僅當P 和 Q 在離散型變量的情況下是相同的分佈，或者在連續型變量的情況下是“幾乎處處”相同的
（2）不對稱性： $D_P(Q) != D_Q(P)$
應用：衡量兩個常用詞（在語法和語義上）在兩個不同文本中的概率分佈，看是否同義；計算詞頻率-逆向文檔頻率（TF-IDF）

交叉熵：衡量兩個概率分佈間的差異性信息

定義：用一個猜測的分佈的編碼方式去編碼其真實的分佈,得到的平均編碼長度或者信息量 $H_P(Q)=-E_{X\sim P}logQ(x)=-\sum_{x\in X}P(x)logQ(x)$ 上式即爲用猜的的p分佈,去編碼原本真是爲q的分佈,得到的信息量
應用：交叉熵在機器學習領域中經常作爲最後的損失函數，只有當猜測的分佈約接近於真實分佈，則交叉熵越小。比如根據自己模型得到的A的概率是80%，得到B的概率是20%，真實的分佈是應該得到A，則意味着得到A的概率是100%，所以 $L=-\sum_iy_ilog(P(x_i))+(1-y_i)log(1-P(x_i))$

相對熵與交叉熵的關係

針對 Q 最小化交叉熵等價於最小化 P 對 Q 的 KL 散度，因爲 Q 並不參與被省略的 $H(P)$ 項。
$H_P(Q)=H(P)+D_P(Q)$

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

【ML小結10】集成學習

1. 集成學習的思想對於訓練集數據，我們通過訓練若干個個體學習器，通過一定的結合策略，就可以最終形成一個強學習器，以達到博採衆長的目的。集成學習（Ensemble learning）可以用於分類問題集成，迴歸問題集成，特徵選取

2020-06-28 17:24:17

【ML小結6】關聯分析與序列模式關聯分析

一、關聯分析關聯分析主要是用於從數據集中發現數據項之間的關係。 1. 基本概念 1.1 支持度 X → Y 的支持度表示項集 {X,Y} 在總項集中出現的概率： support(X→Y)=P(X,Y)support(X\righ

2020-06-28 17:24:14

【ML小結11】高斯混合模型GMM

1. 模型表示高斯混合模型是指具有如下形式的概率分佈模型：P(y∣θ)=∑k=1Kαkϕ(y∣θk)P(y|\theta)=\sum_{k=1}^K\alpha_k\phi(y|\theta_k)P(y∣θ)=k=1∑Kαk

2020-06-28 17:24:14

【ML小結10】集成學習

1. 集成學習的思想對於訓練集數據，我們通過訓練若干個個體學習器，通過一定的結合策略，就可以最終形成一個強學習器，以達到博採衆長的目的。集成學習（Ensemble learning）可以用於分類問題集成，迴歸問題集成，特徵選取

2020-06-28 17:24:17

【ML小結6】關聯分析與序列模式關聯分析

一、關聯分析關聯分析主要是用於從數據集中發現數據項之間的關係。 1. 基本概念 1.1 支持度 X → Y 的支持度表示項集 {X,Y} 在總項集中出現的概率： support(X→Y)=P(X,Y)support(X\righ

2020-06-28 17:24:14

【ML小結11】高斯混合模型GMM

1. 模型表示高斯混合模型是指具有如下形式的概率分佈模型：P(y∣θ)=∑k=1Kαkϕ(y∣θk)P(y|\theta)=\sum_{k=1}^K\alpha_k\phi(y|\theta_k)P(y∣θ)=k=1∑Kαk

2020-06-28 17:24:14

運營效果分析：假設檢驗

银山词霸Claire

2019-04-11 02:19:16

【ML小結14】條件隨機場CRF

银山词霸Claire

2019-03-10 03:30:53

【ML小結13】最大熵模型

银山词霸Claire

2019-03-10 03:30:53

【ML小結12】隱馬爾科夫模型HMM

银山词霸Claire

2019-03-10 03:30:53

【2】信息論

银山词霸Claire

2019-03-07 20:18:25

【10】集成學習

银山词霸Claire

2019-03-07 20:18:25

【11】高斯混合模型GMM

银山词霸Claire

2019-03-07 20:18:24

聚類分析--k均值聚類

银山词霸Claire

2018-11-22 04:38:53

autoencoder（未完待續）

银山词霸Claire

2018-11-21 04:43:04

24小時熱門文章

最新文章

最新評論文章