EM算法詳細推導（啓發性）

EM算法

期望最大化算法，是尋找具有潛在變量地概率模型地最大似然解的一種通用的方法。下面介紹一般形式的EM算法的推導過程。

我們把所有的觀測變量聯合起來記作 $X=\{x_1, x_2, ..., x_N\}$ ，將所有的隱含變量記作 $Z=\{z_1, z_2, x_N\}$ 。這裏只考慮 $Z$ 的狀態是離散值的情況，我們假設每個樣本 $x_n$ 點由對應的隱含變量 $z_n$ 決定。於是對於生成式模型，我們希望模型的參數集 $\theta$ 能夠使得 $p(X|\theta)$ 的概率達到最大。因此很容易想到最大化模型的似然函數就能解出最優的參數集 $\theta$ 。

我們通過計算 $(X,Z)$ 的聯合概率密度分佈計算 $X$ 的邊緣概率密度：
$p(X|\theta) = \sum _Z p(X,Z|\theta) \tag{1}$
對上式使用極大似然法求解參數 $\theta$ 的最優解過程中，需要對左右同時取對數，觀察右邊部分 $ln \sum _Z p(X, Z|\theta)$ ，我們會發現對潛在變量的求和出現在了對數運算內部，這阻止了對數運算直接作用於聯合概率分佈，使得最大似然解的形式更加複雜。

問題的轉化

後面的介紹中，我們稱 $\{X, Z\}$ 爲完整的數據集，並且我們稱實際觀測的數據集 $X$ 爲不完整的，完整數據集的對數似然函數爲 $ln \ p(X,Z|\theta)$ ，我們假定這個完整數據集的對數似然函數進行最大化是很容易的。

下面介紹將最大化 $p(X|\theta)$ 的目標轉化成最優化 $p(X,Z|\theta)$ 的過程。我們引入一個定義在潛在變量上的分佈 $q(Z)$ ，對於任意的 $q(Z)$ ，下面的分解式成立：
$ln\ p(X|\theta)=\mathcal{L}(q,\theta)+KL(q||p)\tag{2}$
其中，我們定義了
$\mathcal{L}(q, \theta) = \sum _Z q(Z)ln\{\frac {p(X,Z|\theta)}{q(Z)}\} \\ KL(q||p) = - \sum _Z q(Z) ln \{\frac{p(Z|X,\theta)}{q(Z)}\} \tag{3}$

證明公式（2）

利用概率的乘積規則 $p(X,Z|\theta)=p(Z|X,\theta) \ p(X|\theta)$ ，於是 $ln\ (X,Z|\theta) = ln \ p(Z|X,\theta) + ln\ p(X|\theta)$ ，然後代入 $\mathcal{L}(q, \theta)$ 的表達式。這得到了兩項，一項消去了 $KL(q||p)$ ，而另外一項給出了所需的對數似然函數 $ln\ p(X|\theta)$ ，其中我們用到了歸一化的概率分佈 $q(Z)$ 的積分等於1的事實。

我們來觀察公式（2），右邊的兩項都是關於變量 $q(Z)$ 和模型參數集 $\{\theta\}$ 的的函數，右邊的第二項表示的是KL散度 $KL(q, \theta)$ 是 $q(Z)$ 和後驗概率分佈 $p(X,Z|\theta)$ 之間的 $Kullback-Leibler$ 散度。我們知道 $Kullback-Leibler$ 散度滿足 $KL(q, \theta) \ge 0$ ，當且僅當 $q(Z) = p(Z|X, \theta)$ 時等號成立。因此從公式(2)中我們可以得到一個結論： $\mathcal{L} (q, \theta)$ 是 $ln \ p(X|\theta)$ 的一個下界。因此，既然 $ln \ p(X|\theta)$ 無法使用極大似然法得到一個解析解，那麼只要找到一種方法讓這個下界不斷接近 $ln \ p(X|\theta)$ ，就能找到使得似然函數 $p(X|\theta)$ 最大化的參數集 $\theta$ 。下面介紹這些方法中一個通用的方法：EM算法。

EM算法的實現過程

EM算法是一個兩階段的迭代優化算法，用於尋找 $ln \ p(X|\theta)$ 最大似然解 $\theta ^{opt}$ 。轉化公式（2）包含兩個參數 $\{q(Z), \theta\}$ ，假設參數向量的當前值爲 $\theta ^{舊}$ ，EM算法分類兩個步驟：

E步驟：固定 $\theta ^{舊}$ ， $q(Z)$ 分佈被設置爲當前參數值 $\theta ^{舊}$ 下的後驗概率分佈 $p(Z|X, \theta ^{舊})$ ，（2）式中的第二項 $KL(q||p)= - \sum _Z q(Z) ln \{\frac{p(Z|X,\theta)}{q(Z)}\}$ 的取值爲0。因此 $ln \ p(X|\theta ^{舊}) = \mathcal{L}(q, \theta ^{舊})$ ，這使得 $\theta ^{舊}$ 固定的情況下，下界上移到對數似然函數值相同的位置。 $\theta ^{舊}$ 在未達到最大似然解 $\theta ^{opt}$ 之前， $ln \ p(X|\theta ^{舊}) \le ln \ p(X|\theta ^{opt})$ ，於是我們通過M步驟更新 $\theta ^{舊}$ 爲 $\theta ^{新}$ ，使得 $\theta ^{新}$ 不斷地逼近 $\theta ^{opt}$ 。

M步驟：保持E步驟中計算得到的 $q(Z)=p(Z|X, \theta ^{舊})$ 固定，使下界 $\mathcal {L}(q, \theta)$ 關於 $\theta$ 進行最大化，得到某個新值 $\theta ^{新}$ 。這會使下界 $\mathcal{L}$ 增大（除非達到了極大值），這會使得對應的對數似然函數 $ln \ p (X|\theta^{新})$ 增大。原因是當前潛在變量的分佈 $q(Z)$ 由舊的參數值確定並且保持了固定，因此它不會等於新的後驗概率分佈 $p(Z|X, \theta ^{新})$ ，從而KL散度不爲0。於是對數似然函數的增加量大於下界的增加量（下界增加量+新的KL散度值）。

M步驟我們推導了通過對下界 $\mathcal{L}(q, \theta)$ 進行最大化，更新迭代得到的 $\theta ^{新}$ 對應的對數似然函數 $ln \ p(X|Z, \theta ^{新}) > ln \ p(X|Z, \theta ^{舊})$ ，我們只要將E步驟中舊的參數 $\theta ^{舊}$ 用M步驟的 $\theta ^{新}$ 代替，如此持續迭代，就能使參數$\theta $不斷逼近最優解$ \theta ^{opt}$。

最大化下界 $\mathcal{L}(q, \theta)$

我們將注意力放在M步驟中 $\mathcal{L}(q, \theta)$ 的最大化上，使用 $q(Z)=p(Z|X, \theta ^{舊})$ 代入下界函數 $\mathcal{L}(q, \theta)$ 得到：
$\mathcal{L}(q, \theta) = \sum _Z p(Z|X, \theta ^{舊}) ln \ p(X, Z |\theta) - \sum _Z p(Z|X, \theta _{舊}) ln \ p(Z|X, \theta ^{舊}) \\ =\mathcal{Q}(\theta, \theta ^{舊})+常數 \tag{4}$
其中，常數就是分佈 $q$ 的熵，與 $\theta$ 無關。觀察公式（4）可知，M步驟後下界的增大值實際上等於完整數據似然函數的期望，我們記作 $\mathcal{Q}(\theta, \theta _{舊})$ 。最大化 $\mathcal{L}(q, \theta)$ 又轉化成了最大化 $\mathcal{Q}(\theta, \theta ^{舊})$ ，至此我們就將最大化 $p(X|\theta)$ 目標轉化成了關於 $p(X, Z|\theta)$ 的問題，這樣做的好處是使得我們要優化的 $\theta$ 只出現在對數運算內部，如果聯合概率分佈 $p(X,Z|\theta)$ 由指數族分佈的成員組成，或者其乘積組成，那麼對數運算會抵消指數運算，大大簡化了運算的複雜度，解決了原來無法得到 $\theta$ 解析解的問題。

$\mathcal{Q}(\theta, \theta ^{舊})$ 的最大化

經過上文的推導，我們對問題進行了兩次轉化，第一次在M步驟中將最優化 $ln \ p(X|\theta)$ 的目標轉化成最優化下界 $\mathcal{L}(q, \theta)$ 的問題，第二次轉化是將最優化下界 $\mathcal{L}(q, \theta)$ 的目標轉化成最優化 $\mathcal{Q}(\theta, \theta _{舊})$ 的目標。

我們來討論獨立同分布數據集的情況， $X$ 由 $N$ 個數據點 $\{x_n\}$ 組成，而 $Z$ 由對應的N個潛在變量 $\{z_n\}$ 組成，其中 $n=\{1,2,...,N\}$ 。根據獨立性假設，我們有 $p(X, Z)= \prod _ n p(x_n, z_n)$ ，並通過關於 $\{z_n\}邊緣概率分佈，我們有$ $P(X)=\prod _n p(x_n)$ ，使用加和規則和乘積規則，我們看到E步驟計算的後驗概率分佈的形式爲：
$p(Z|X,\theta)=\frac {P(X, Z |\theta)}{\sum _Z p(X, Z|\theta)} =\frac{\prod _{n=1} ^{N} p(x_n, z_n|\theta)}{\sum _Z \prod _{n=1} ^{N} p(x_n, z_n|\theta)} =\prod _{n=1}^{N}p(z_n|x_n, \theta) \tag{5}$
因此後驗概率分佈也可以關於 $n$ 進行分解。在高斯混合模型中，這個結果意味着混合分佈的每個分量對於一個特定的數據點 $x_n$ 的”責任“只與 $x_n$ 的值和混合分量的參數 $\theta$ 有關，而與其他數據點無關。

從參數空間角度理解EM算法

如上圖所示，紅色曲線表示（不完整數據）的對數似然函數，它的最大值是我們想要的。我們首先選擇某一個初始的參數 $\theta ^{舊}$ ，然後第一個E步驟中，我們計算潛在變量上的後驗概率分佈 $p(Z|X, \theta ^{舊})$ ，我們使用 $p(Z|X, \theta ^{舊})$ 代替 $q(Z)$ 代入進而得到了一個較小的下界函數 $\mathcal{L}(q, \theta ^{old})$ ，用藍色曲線表示，下界和對數似然函數在 $\theta ^{old}$ 處相切。並且這個下界函數 $\mathcal{L}(q, \theta ^{old})$ 是一個凹函數，對於指數族分佈的混合分佈來說，有唯一的最大值，注意前面證明過下界函數 $\mathcal{L}(q, \theta ^{old})$ 的最大值始終小於似然函數的最大值。因此在M步驟中，下界函數 $\mathcal{L}(q, \theta)$ 被最大化，得到了新的參數 $\theta ^{new}$ ，這個參數給出了比 $\theta ^{old}$ 處更大的似然函數值。接下來的E步驟構建一個新的下界，它在 $\theta ^{new}$ 處和似然函數相切，用綠色曲線表示。重複上面的步驟直到下界函數的最大值的增加率小於某個閾值。

EM算法詳細推導（啓發性）

EM算法

問題的轉化

EM算法的實現過程

最大化下界 $\mathcal{L}(q, \theta)$

$\mathcal{Q}(\theta, \theta ^{舊})$ 的最大化

從參數空間角度理解EM算法

高效率使用windows

智能決策新時代：可視化大屏是否能夠超越傳統白板？

解密Prompt系列28. LLM Agent之金融領域摸索：FinMem & FinAgent

分享幾個.NET開源的AI和LLM相關項目框架

七個習慣之五：知彼解己

七個習慣之二：以終爲始

詳解注意力機制（Attention）——Global/Local/Self Attention

EM算法詳細推導（啓發性）

七個習慣之六：統合綜效

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

EM算法詳細推導（啓發性）

EM算法

問題的轉化

EM算法的實現過程

最大化下界L(q,θ)\mathcal{L}(q, \theta)L(q,θ)

Q(θ,θ舊)\mathcal{Q}(\theta, \theta ^{舊})Q(θ,θ舊)的最大化

從參數空間角度理解EM算法

最大化下界 $\mathcal{L}(q, \theta)$

$\mathcal{Q}(\theta, \theta ^{舊})$ 的最大化