《Recursive Unsupervised Learning of Finite Mixture Models》（有限混合模型的遞歸無監督學習）

（一）論文地址：

《Recursive Unsupervised Learning of Finite Mixture Models》

這篇文章並不是針對cv領域的高斯混合模型算法，其提出的算法是一個通用框架，其中opencv使用的cv2.createBackgroundSubtractorMOG2這個背景分割類，就是基於本文的理論。

opencv的應用寫在這篇論文中：
《Efficient adaptive density estimation per image pixel for the task of background subtraction》

（二）abstract-提要：

對於現有的混合模型算法，有兩個開放性問題有待解決：

如何選取混合模型中的模型數量M；
如何進行模型參數 $\theta^0$ 的初始化；

這篇論文針對這兩個問題提出了一種新方法，即在更新方程上對權值引入了一個先驗密度分佈（文中稱爲prior）作爲偏置，先用較多數量模型做隨機初始化，然後在更新模型參數的同時，選取模型數量；

（三）Parameter Estimation-參數估計：

3.1 概率密度：

對於由 $M$ 個模型組成的混合模型，維度爲 $d$ 的向量 $\vec x$ ，其概率密度爲：

$P(\vec x;\vec \theta)=\sum_{m=1}^M\pi_mP(\vec x;\vec \theta_m)$ ，且 $\sum_{m=1}^M\pi_m=1$

其中：

$\vec \theta=\lbrace \pi_1,…,\pi_M,\vec \theta_1,…,\vec \theta_M \rbrace$ 是混合模型的參數，也寫作 $\vec \theta(M)$ ；
$\pi_m$ 是混合模型中第m的模型的權重；
$\vec \theta_m$ 在高斯模型中爲 $\lbrace \mu_m,\sigma_m \rbrace$ ;

3.2 最大似然估計：

對於一組樣本 $X=\lbrace \vec x^{(1)},…,\vec x^{(T)} \rbrace$ ，最大似然估計得到的參數估計值爲：

$\vec \theta=argmax(log P(X;\vec \theta))$

由於使用最大似然估計直接求解過於複雜，我們通常使用EM算法去迭代，使得迭代得到的 $\vec \theta_t$ 趨近於這個解；

3.3 最大期望估計（EM算法）：

算法詳解參考我的這篇博客【機器學習基礎】EM算法詳解及其收斂性證明，這裏直接使用推理出的結論；

3.3.1 引入隱藏變量：

對於樣本中的每一個 $\vec x$ （observed，已知觀察量），我們分別引入一個隱藏參數（unobserved，未知參數） $\vec y=\lbrace \vec y_1,…,\vec y_M \rbrace^T$ ，用來表示樣本 $\vec x$ 所屬混合模型中的哪個模型的分佈；

這樣由條件概率公式，概率密度函數就可以改寫爲：

$P(\vec x,\vec y;\vec \theta)$

$=P(\vec y;\pi_1,…,\pi_M)P(\vec x|\vec y,\vec \theta_1,…,\vec \theta_M)$

$=\prod_{m=1}^M\pi_m^{y_m}P(\vec x;\vec \theta_m)^{y_m}$

其中， $\vec y$ 中的一個 $\vec y_m$ 爲 $1$ ，其餘爲 $0$ ，由權重參數 $\pi_1,…,\pi_M決定$ ;

3.3.2 迭代參數估計值：

首先我們給定參數 $\vec \theta$ 初始化估計值爲 $\hat{\vec \theta}_{(0)}$ ，如果我們將所有樣本的隱藏變量標記爲 $\vec Y=\lbrace \vec y^{(1)},…,\vec y^{(t)} \rbrace$ ，那麼第 $k$ 次迭代得到的參數估計值 $\hat{\vec \theta}_{(k)}$ 就由上一次的估計值 $\hat{\vec \theta}_{(k-1)}$ 確定：

3.3.2.1 E-step:

構造 $Q$ 函數：

$Q(\vec \theta,\hat{\vec \theta}_{(k-1)})$

$=E_Y(log P(X,Y;\vec \theta)|X,\hat{\vec \theta}_{(k-1)})$

$=\sum_YP(Y|X,\hat{\vec \theta}_{(k-1)})logP(X,Y|\vec \theta)$

3.3.2.2 M-step:

對 $Q$ 進行最大似然估計：

$\hat{\vec \theta}_{(k)}=argmax(Q(\vec\theta,\hat{\vec \theta}_{(k-1)}))$

3.3.2.3 存在的問題：

EM算法如果沒有適當的初始化，迭代過程中可能落入局部最大值，而難以收斂到期望的參數估計值；

（四）Model Selection-模型選擇：

爲了使用EM算法，我們需要定義一個合適的模型數量 $M$ ；混合模型中，如果 $M$ 過大，容易導致過擬合（over fitting）， $M$ 太小容易導致欠擬合（under fitting）；

4.1 最大化函數 $J$ ：

比較實用的模型數量選擇原則是構造如下最大化函數：

$J(M,\vec \theta(M))=logP(X;\vec \theta(M))-P(M)$

其中：

$logP(X;\vec \theta(M))$ 是樣本的對數最大似然函數，這一部分可以用EM算法最大化；
$P(M)$ 是懲罰函數，用以將複雜的方程簡化（即如果將 $M$ 歸在參數 $\theta$ 中，方程的求解會變複雜）；

（五）Solution Using $MAP$ Estimation：

5.2 估計參數 $M$ 的基本過程：

選擇參數 $M$ 的標準步驟爲，對參數 $M$ 的不同的值 $M-s$ 分別使用 $ML$ （最大似然估計），然後選擇能夠使得函數 $J(M,\vec \theta(M))$ 最大的 $M$ 值；

5.1 引入先驗密度分佈（prior）：

這裏我們引入先驗分佈，將 $J$ 函數改寫爲：

$J(M,\vec \theta(M))=logP(X;\vec \theta(M))+logP(\vec \theta(M))$

如果我們使用Dirichlet先驗分佈，那麼 $P(\vec \theta(M))$ 正比於：

$exp\sum_{m=1}^Mc_mlog\pi_m=\prod_{m=1}^M\pi_m^{c_m}$

其中，係數 $c_m=-N/2$ ， $N$ 代表混合模型中每個模型的平均參數數目；

那麼整個過程就變成了：

使用一個較多隨機初始化模型（ $M$ 較大）組成的混合模型；
使用迭代方法（如EM算法）求得 $MAP$ 的解（即參數的估計值）；

在迭代過程中，迭代估計值 $\hat{\vec \theta}_{(k)}$ 不斷趨近於參數估計值 $\hat{\vec \theta}$ （即最大似然方程的解），同時 $M$ 也會不斷減小至模型穩定；

（六）Recursive（Online）Solution：

6.1 最大似然估計：

對於最大似然估計，我們通過：

$\frac{\delta}{\delta \hat{\pi}_m}logP(X;\hat{\vec \theta})=0$

來獲取參數的估計值；

如果我們引入拉格朗日乘子 $\lambda$ ，那麼就有：

$\frac{\delta}{\delta \hat{\pi}_m}(logP(X;\hat{\vec \theta})+\lambda(\sum_{m=1}^M\hat{\pi}_m-1))=0$

t個樣本應該滿足：

$\hat{\pi}_m^{(t)}=\frac{1}{t}\sum_{i=1}^to_m^{(t)}(\vec x^{(i)})$

其中 $o(ownerships)$ 定義爲：

$o_m^{(t)}(\vec x)=\hat{\pi}_m^{(t)}P_m(\vec x;\hat{\vec \theta})/P(\vec x;\hat{\vec\theta}^{(t)})$

6.2 $MAP$ 方法：

類似的，對於 $MAP$ 方法，有：

$\frac{\delta}{\delta \hat{\pi}_m}(logP(X;\hat{\vec \theta})+logP(\vec \theta)+\lambda(\sum_{m=1}^M\hat{\pi}_m-1))=0$

對於t個樣本：

$\hat{\pi}_m^{(t)}=\frac{1}{K}(\sum_{i=1}^to_m^{(t)}(\vec x^{(i)})-c)$

其中：

$K=\sum_{m=1}^M(\sum_{i=1}^to_m^{(t)}(\vec x^{(i)})-c)=t-Mc$ ，（注意 $\sum_{m=1}^Mo_m^{(t)}=1$ ）

$c_m = -c$ ，即 $c=N/2$

這樣的話，就有：

$\hat{\pi}_m^{(t)}=\frac{\hat{\prod}_m-c/t}{1-Mc/t}$

其中：

$\hat{\prod}_m=\frac{1}{t}\sum_{i=1}^to_m^{(t)}(\vec x^{(i)})$

6.3 迭代方程：

這樣的話，我們就可以通過之前提到的估計方法，利用 $o_m^{(t+1)}(\vec x)$ 獲得 $o_m^{(t)}(\vec x)$ 的迭代值；

同時，對於權重參數 $\pi$ ，有：

$\hat{\pi}_m^{(t+1)}=\hat{\pi}_m^{(t)}+(1+t)^{-1}(\frac{o_m^{(t)}(\vec x^{(t+1)})}{1-Mc_T}-\hat{\pi}_m^{(t)})-(1+t)^{-1}\frac{c_T}{1-Mc_T}$

其中， $c_T=c/T$ ；並且我們需要保證 $T$ 足夠大，從而使得 $Mc_T<1$ ;

6.4 初始化和迭代：

$\hat{\pi}_m^{(0)}=1/M$ ，並且當 $\hat{\pi}_m^{(t+1)}<0$ 時，捨棄第m個模型；

6.5 高斯混合模型中的表達：

最常用的混合模型之一，就是混合高斯模型（Gaussian Mixture）；

對於混合高斯模型，概率密度表示爲：

$P_m(\vec x;\vec \theta_m)=N(\vec x;\vec \mu_m,C_m)$ ， $\mu$ 爲均值， $C$ 爲協方差矩陣；

那麼相應的迭代方程爲：

$\hat{\vec \mu}_m^{(t+1)}=\hat{\vec \mu}_m^{(t)}+(1+t)^{-1}\frac{o_m^{(t)}(\vec x^{(t+1)})}{\hat{\pi}_m^{(t)}}(\vec x^{(t+1)}-\hat{\vec \mu}_m^{(t)})$

$\hat{C}_m^{(t+1)}=\hat{C}_m^{(t)}+(1+t)^{-1}\frac{o_m^{(t)}(\vec x^{(t+1)})}{\hat{\pi}_m^{(t)}}((\vec x^{(t+1)}-\hat{\vec \mu}_m^{(t)})(\vec x^{(t+1)}-\hat{\vec \mu}_m^{(t)})^{T}-\hat{C}_m^{(t)})$

（七）A Simple Practical Algorithm：

7.1 config：

我們可以將 $\alpha=(1+t)^{-1}$ （稱爲學習率）簡化爲 $\alpha=1/T$ ；也可以採用固定的 $\alpha$ 值，從而防止 $\alpha$ 過小並加快背景更新；
$c_T=\alpha N/2$ ；
如果採用帶有協方差矩陣的混合高斯模型，那麼對於 $d$ 維輸入，有 $N=d+d(d+1)/2$

7.2 輸入：

新的樣本數據爲 $\vec x^{(t+1)}$ ，進入第 $t+1$ 次迭代；

7.3 當前參數：

第 $t$ 次迭代得到的參數估計值爲 $\hat{\vec \theta}^{(t)}$ ；

7.4 計算 $'ownership'$ ：

$o_m^{(t)}(\vec x^{(t+1)})=\hat{\pi}_m^{(t)}P_m(\vec x^{(t+1)};\hat{\vec \theta}^{(t)})/P(\vec x^{(t+1)};\hat{\vec\theta}^{(t)})$

7.5 更新權重 $\pi$ ：

$\hat{\pi}_m^{(t+1)}=\hat{\pi}_m^{(t)}+\alpha(\frac{o_m^{(t)}(\vec x^{(t+1)})}{1-Mc_T}-\hat{\pi}_m^{(t)})-\alpha\frac{c_T}{1-Mc_T}$

7.6 取捨模型：

如果有 $\hat{\pi}_m^{(t+1)}<0$ ，則刪掉第 $m$ 個模型，並令 $M=M-1$ ；

7.7 更新參數：

7.7.1 更新均值 $\mu$ ：

$\hat{\vec \mu}_m^{(t+1)}=\hat{\vec \mu}_m^{(t)}+\omega\vec\delta$

其中：

$\omega=\alpha\frac{o_m^{(t)}(\vec x^{(t+1)})}{\hat{\pi}_m^{(t)}}$

$\vec \delta=\vec x^{(t+1)}-\hat{\vec \mu}_m^{(t)}$

7.7.2 更新協方差矩陣：

$\hat{C}_m^{(t+1)}=\hat{C}_m^{(t)}+\omega(\vec \delta\vec \delta^T-\hat{C}_m^{(t)})$

$tips：可以讓\omega=min(20\alpha,w)$

7.8 獲得新參數：

這樣就得到了新的參數估計值 $\hat{\vec \theta}^{(t+1)}$ ；

【論文閱讀筆記】Recursive Unsupervised Learning of Finite Mixture Models