機器學習常用算法：最大熵模型

原創

2020-02-23 00:27

最大熵原理

學習概率模型時，在所有可能的概率模型中，熵最大的模型是最好的模型。
假設離散隨機變量 $X$ 的概率分佈是 $P (X)$ ，則其熵爲

H (P) = - \sum_{x} P (x) log P (x)

且滿足如下不等式：

0 \leq H (P) \leq log | X |

式中， $| X |$ 是 $X$ 的取值個數，當且僅當 $X$ 的分佈是均勻分佈時，右邊等號成立，即當 $X$ 服從均勻分佈時，熵最大。

最大熵原理可簡述爲按照滿足約束條件下求等概率的方法估計概率分佈。

最大熵模型

1.最大熵模型是由以下條件概率分佈表示的分類模型，可用於二類或多分類問題。

P_{w} (y | x) = \frac{1}{Z_{w} (x)} exp (\sum_{i = 1}^{n} w_{i} f_{i} (x, y))

Z_{w} (x) = \sum_{y} exp (\sum_{i = 1}^{n} w_{i} f_{i} (x, y))

其中，

Z_{w} (x)

是規範化因子；

w_{i}

是特徵權值；

f_{i} (x, y)

是特徵函數，描述輸入

x

和輸出

y

之間的某一個事實，其定義爲

f (x, y) = {\begin{cases} 1, & x 與 y 滿足某一事實 \\ 0, & 否則 \end{cases}

這是一個二值函數。

2.對於給定的訓練集 $T = {(x_{1}, y_{1}), (x_{2}, y_{2}), . . ., (x_{N}, y_{N})}$ 和特徵函數 $f_{i} (x, y), i = 1, 2, . . ., n$ ，應用最大熵原理於分類模型中，得到以下約束最優化問題：

min - H (P) = \sum_{x, y} \tilde{P} (x) P (y | x) log P (y | x)

s . t . E_{P} (f_{i}) - E_{\tilde{P}} (f_{i}) = 0, i = 1, 2, . . ., n

\sum_{y} P (y | x) = 1

求解此最優化問題的無約束最優化對偶問題可得到最大熵模型，即最大熵模型的學習可歸結爲對偶函數 $Ψ (w)$ 的極大化。

對偶函數 $Ψ (w)$ 爲

Ψ (w) = min_{P \in C} L (P, w) = L (P_{w}, w)

其中，

L (P, w)

爲引入拉格朗日乘子

w

後的拉格朗日函數

\begin{aligned} L (P, w) & = - H (P) + w_{0} (1 - \sum_{y} P (y | x)) + \sum_{i = 1}^{n} w_{i} (E_{\tilde{P}} (f_{i}) - E_{P} (f_{i})) \\ = \sum_{x, y} \tilde{P} (x) P (y | x) log P (y | x) + w_{0} (1 - \sum_{y} P (y | x)) \\ + \sum_{i = 1}^{n} w_{i} (\sum_{x, y} \tilde{P} (x, y) f_{i} (x, y) - \sum_{x, y} \tilde{P} (x) P (y | x) f_{i} (x, y)) \end{aligned}

3.對偶函數的極大化等價於最大熵模型的極大似然估計。
(1).已知訓練數據的經驗概率分佈 $\tilde{P} (X, Y)$ ，條件概率分佈 $P (Y | X)$ 的對數似然函數爲

\begin{aligned} L_{\tilde{P}} (P_{w}) & = log \prod_{x, y} P (y | x)^{\tilde{P} (x, y)} = \sum_{x, y} \tilde{P} (x, y) log P (y | x) \\ = \sum_{x, y} \tilde{P} (x, y) \sum_{i = 1}^{n} w_{i} f_{i} (x, y) - \sum_{x, y} \tilde{P} (x, y) log Z_{w} (x) \\ = \sum_{x, y} \tilde{P} (x, y) \sum_{i = 1}^{n} w_{i} f_{i} (x, y) - \sum_{x} \tilde{P} (x) log Z_{w} (x) \end{aligned}

最後一步用到 $\sum_{y} \tilde{P} (y) = 1$ .
(2).對偶函數 $Ψ (w)$

\begin{aligned} Ψ (w) & = L (P_{w}, w) \\ = \sum_{x, y} \tilde{P} (x) P_{w} (y | x) log P_{w} (y | x) + \sum_{i = 1}^{n} w_{i} (\sum_{x, y} \tilde{P} (x, y) f_{i} (x, y) - \sum_{x, y} \tilde{P} (x) P_{w} (y | x) f_{i} (x, y)) \\ = \sum_{x, y} \tilde{P} (x, y) \sum_{i = 1}^{n} w_{i} f_{i} (x, y) + \sum_{x, y} \tilde{P} (x) P_{w} (y | x) (log P_{w} (y | x) - \sum_{i = 1}^{n} w_{i} f_{i} (x, y)) \\ = \sum_{x, y} \tilde{P} (x, y) \sum_{i = 1}^{n} w_{i} f_{i} (x, y) - \sum_{x, y} \tilde{P} (x) P_{w} (y | x) log Z_{w} (x) \\ = \sum_{x, y} \tilde{P} (x, y) \sum_{i = 1}^{n} w_{i} f_{i} (x, y) - \sum_{x} \tilde{P} (x) log Z_{w} (x) \end{aligned}

最後一步用到 $\sum_{y} P (y | x) = 1$ .

(3).比較可得，

Ψ (w) = L_{\tilde{P}} (P_{w})

即最大熵模型的學習問題可轉換爲求解對數似然函數極大化或對偶函數極大化的問題。

結論

優點：
1、準確率較高。
2、可以靈活地設置約束條件，從而調節模型對未知數據的適應度和對已知數據的擬合程度
缺點：
1.由於約束函數數量和樣本數目有關係，導致迭代過程計算量巨大，實際應用較難。

參考資料

統計學習方法，李航著，清華大學出版社
最大熵模型原理小結

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

機器學習常用算法：最大熵模型

最大熵原理

最大熵模型

結論

參考資料

通過f-string編寫簡潔高效的Python格式化輸出代碼

工作中用到的腳本合集

微服務實踐Aspire項目發佈到遠程k8s集羣

[轉帖]20個常用的Linux工具命令

[轉帖]PostgreSQL從小白到高手教程 - 第46講：poc-tpch測試

24-5-18 X

經典排序算法：歸併排序(python)

pandas數據索引：loc、iloc和ix

機器學習常用算法：Logistic Regression

經典排序算法：快速排序(python)

MySQL基本操作

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結