模式識別與機器學習(三)——高斯分佈基礎

1.2中 高斯分佈基礎

高斯分佈是概率論中最常用的概率分佈之一,其概率密度函數如下
\mathcal{N}(x|\mu,\sigma^2)=\frac{1}{(2\pi \sigma^2)^{1/2}} \exp({-\frac{1}{2\sigma^2} (x-\mu)^2})
高斯分佈由兩個參數控制,其中 \mu 是均值,\sigma^2 是方差。\sigma 稱爲標準差,方差的倒數 \beta=1/\sigma^2 稱爲精度。顯然高斯分佈滿足概率的以下兩個性質:
\mathcal{N}(x|\mu,\sigma^2)>0\\\int_{-\infty}^{\infty}\mathcal{N}(x|\mu,\sigma^2)dx=1

高斯分佈的期望爲
\mathbb{E}[x]=\int_{-\infty}^{\infty}\mathcal{N}(x|\mu,\sigma^2)\ x\ dx=\mu
高斯分佈的二階矩爲
\mathbb{E}[x^2]=\int_{-\infty}^{\infty}\mathcal{N}(x|\mu,\sigma^2)\ x^2\ dx=\mu^2+\sigma^2

方差爲
var[x]=\mathbb{E}[x^2]-\mathbb{E}[x]^2=\sigma^2

\mathbf{x}D 維的向量,則其對應的多元高斯分佈的概率密度函數爲:
\mathcal{N}(\mathbf{x}|\mathbf{\mu},\Sigma)=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\Sigma|^{1/2}}\exp\big\{-\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^\top\Sigma^{-1}(\mathbf{x}-\mathbf{\mu})\big\}

其中 \mathbf{\mu}D 維的均值向量,\SigmaD\times D 的協方差矩陣,|\Sigma| 表示 \Sigma 的行列式。
現在假設有一組觀測數據 \mathrm{x}=\{x_1,...,x_N\},每個 x_i 均爲 D 維向量。爲了確定高斯分佈的參數我們假定它們是獨立同分布地從同一個分佈產生的,於是這組數據的似然函數可以表示爲
p(\mathrm{x}|\mu,\sigma^2 )=\prod_{n=1}^N \mathcal{N}(x_n|\mu, \sigma^2)

頻率派最常用的參數估計方法是最大似然估計,其思想是通過最大化似然函數找到參數的估計。

⾼斯概率分佈的似然函數,由紅⾊曲線表⽰。這⾥,黑點表⽰數據集 \{x_n\} 的值,似然函數對應於藍⾊值的乘積。最大化似然函數涉及到調節⾼斯分佈的均值和⽅差,使得這個乘積最⼤。

由於對似然函數取對數不影響優化,我們可以得到對數似然函數:
\ln\ p(\mathrm{x}|\mu,\sigma^2 )=-\frac{1}{2\sigma^2}\sum_{n=1}^N(x_n-\mu)^2-\frac{N}{2}ln\ \sigma^2-\frac{N}{2}\ln\ (2\pi)

關於 \mu 優化,得到其最大似然估計
\mu_{ML}=\frac{1}{N} \sum_{n=1}^N x_n

注意到 \mu 的最大似然估計等價於樣本均值。關於 \sigma^2 我們得到
\sigma_{ML}^2=\frac{1}{N}\sum_{n=1}^N (x_n-\mu_{ML})^2

注意到 \sigma_{ML}^2 的最大似然估計是有偏估計:
\mathbb{E}[\mu_{ML}]=\mu\\\mathbb{E}[\sigma^2_{ML}]=\bigg(\frac{N-1}{N}\bigg)\sigma^2
也就是說 \sigma^2_{ML} 低估了 \sigma^2,這種有偏性隨着樣本量增大而逐漸減輕。爲了無偏,很簡單的,我們得到修正的估計:
\widetilde{\sigma}^2=\frac{1}{N-1}\sum_{n=1}^N (x_n-\mu_{ML})^2

上述估計是無偏的。

當數據點的數量 N 增大時, 最⼤似然解的偏移會變得不太嚴重, 並且在 N \to 無窮 的情況下,⽅差的最大似然估計與產⽣數據的分佈的真實方差相等。

補充證明:
\begin{align} \mathbb{E}[\mu_{ML}]&=\mathbb{E}[\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}]=\frac{1}{N}\sum\limits _{i=1}^{N}\mathbb{E}[x_{i}]=\mu \\ \mathbb{E}[\sigma_{ML}^{2}] &=\mathbb{E}[\frac{1}{N}\sum\limits _{i=1}^{N}(x_{i}-\mu_{ML})^{2}]=\mathbb{E} [\frac{1}{N}\sum\limits _{i=1}^{N}(x_{i}^{2}-2x_{i}\mu_{ML}+\mu_{ML}^{2})\nonumber\\ &=\mathbb{E} [\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}^{2}-\frac{2}{N}\mu_{ML}\sum_{i=1}^{N}x_i+\frac{1}{N}\sum_{i=1}^{N}\mu_{ML}^{2}]=\mathbb{E} [\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}^{2}-\mu_{ML}^{2}]\nonumber\\ &= \mathbb{E} [\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}^{2}]-E [\mu_{ML}^{2}]\\ &=\frac{1}{N}\cdot N(\sigma^2+\mu^2)-(\frac{\sigma^2}{N}+\mu^2) =\frac{N-1}{N}\sigma^{2} \end{align}

從貝葉斯角度看曲線擬合問題

我們已經看到,多項式曲線擬合的問題可以通過誤差最小化問題來表⽰。這⾥我們回到曲線擬合的問題,從概率的⾓度來考察它,可以更深刻地認識誤差函數和正則化,並且能夠讓我們完全從貝葉斯的角度來看待這個問題。

假設給定輸入變量 x,目標變量值 t 服從一個均值爲 y(x,\mathbf{w}) 的高斯分佈:
p(t|x, \mathbf{w},\beta)=\mathcal{N}(t| y(x,\mathbf{w}), \beta^{-1})

其中 \beta=1/\sigma^2 爲高斯分佈的精度。 可以看到上述分佈的控制變量爲 \mathbf{w}\beta

我們進一步假設數據集 \mathrm{x}=\{x_1,...,x_N\} 中的樣本點獨立同分布地從上述的高斯分佈產生。那麼爲了求得 t 的分佈,使用最大似然估計方法。該數據集的似然函數爲:
p( \mathbf{t}| \mathbf{x}, \mathbf{w},\beta )=\prod_{n=1}^N \mathcal{N}(t_n| y(x_n,\mathbf{w}), \beta^{-1})

最大似然估計的目標是最大化對數似然函數:
\mathbf{w}_{ML}=\arg\max_{\mathbf{w}}\ln\ p( \mathbf{t}| \mathbf{x}, \mathbf{w},\beta )
通過取對數,我們得到對數似然函數:
\mathcal{L}(\mathbf{w},\beta)=ln \, p( \mathbf{t}| \mathbf{x}, \mathbf{w},\beta )=-\frac{\beta}{2}\sum_{n=1}^N\{y(x_n,\mathbf{w})-t_n\}^2+ \frac{N}{2}ln\, \beta- \frac{N}{2} ln\, (2\pi)
我們不去最大化似然函數,等價地我們來最小化負對數似然函數。

上公式的最後兩項與 \mathbf{w} 無關,因此我們可以丟掉它們。於是我們的目標變爲最小化
\frac{\beta}{2}\sum_{n=1}^N \{ y(x_n,\mathbf{w})-t_n \}^2

基於 \mathbf{w} 不依賴於 \beta\beta>0 的事實,我們可以任意放縮係數 \frac{\beta}{2}。爲了後序處理的方便,我們將係數定爲 1/2。最終,我們的目標函數定義如下:
\mathbf{w}_{ML}=\arg\min_{\mathbf{w}} \frac{1}{2}\sum_{n=1}^N \{ y(x_n,\mathbf{w})-t_n \}^2
發現這個函數就是1.1節中的平方和誤差函數。至此我們證明了在高斯分佈的假設下,最大化似然函數等價於最小化平方和誤差函數。接着,我們還要優化 \beta :
\frac{\partial \mathcal{L}(\mathbf{w},\beta)}{\partial \beta} = -\frac{1}{2}\sum_{n=1}^N\{y(x_n,\mathbf{w})-t_n\}^2+ \frac{N}{2\beta}=0

由此可得
\frac{1}{\beta_{ML}}=\sigma_{ML}^2= \sum_{n=1}^N\{y(x_n,\mathbf{w}_{ML})-t_n\}^2

\mathbf{w}_{ML},\beta_{ML} 代回到本節開頭的概率密度式就得到了關於 t 的預測分佈:
p(t|x, \mathbf{w}_{ML},\beta_{ML})=\mathcal{N}(t| y(x,\mathbf{w}_{ML}), \beta_{ML}^{-1})

如圖所示,給定 x 的條件下 t 的⾼斯條件概率分佈如下,其中均值爲多項式函數 y(x, \mathbf{w}),精度由參數 β 給出 :

接下來介紹一種更“貝葉斯”的方法,我們可以對參數 \mathbf{w} 假設一個先驗,簡單起見假設其爲一個零均值,協方差爲對角陣的多元高斯(即其各個分量彼此不相關):
p(\mathbf{w}|\alpha)=\mathcal{N}(\mathbf{w}|\mathbf{0},\alpha^{-1}\boldsymbol{I})=\Big(\frac{\alpha}{2\pi}\Big)^{(M+1)/2}\exp(-\frac{\alpha}{2}\mathbf{w}^T\mathbf{w})

其中 \alpha 是高斯分佈的精度,也稱爲超參數;M+1\mathbf{w} 中的參數個數。 根據貝葉斯公式,\mathbf{w} 的後驗概率正比於似然與先驗的乘積:
p(\mathbf{w}|\mathbf{x},\mathbf{t},\alpha,\beta)\propto p(\mathbf{t}|\mathbf{x},\mathbf{w},\beta)p(\mathbf{w}|\alpha)

很顯然,\mathbf{w} 的後驗依賴於 \mathrm{t}\alpha,此時還需注意到 \mathrm{x}\beta\mathbf{w}\mathrm{t} 的共同祖先,因此 \mathbf{w} 也依賴於 \mathrm{x}\beta

給定數據集,我們現在通過尋找最可能的 \mathbf{w} 值(即最⼤化後驗概率)來確定 \mathbf{w}。將 p(\mathrm{t}|\mathrm{x},\mathbf{w},\beta)p(\mathbf{w}|\alpha) 的具體形式代入並取對數,通過最大化對數後驗分佈我們得到關於 \mathbf{w} 的最大後驗估計(MAP, maximum a posteriori):
\begin{aligned}\mathbf{w}_{MAP}&=\arg\max_{\mathbf{w}} \ln\ p(\mathbf{w}|\mathbf{x},\mathbf{t},\alpha,\beta)\\&=\arg\max_{\mathbf{w}} - \frac{\beta}{2}\sum_{n=1}^N(t_n-y(x_n,\mathbf{w}))^2-\frac{\alpha}{2}\mathbf{w}^T\mathbf{w}\\&=\arg\min_{\mathbf{w}} \frac{1}{2}\sum_{n=1}^N(t_n-y(x_n,\mathbf{w}))^2+\frac{\alpha}{2\beta}\mathbf{w}^T\mathbf{w}\\&= \arg\min_{\mathbf{w}} \frac{1}{2}\sum_{n=1}^N(t_n-y(x_n,\mathbf{w}))^2+\frac{\lambda}{2}\mathbf{w}^T\mathbf{w}\end{aligned}
其中 \lambda=\frac{\alpha}{\beta},就是1.1節中的正則化係數。因此我們看到給定參數先驗、最大化後驗概率等價於最小化正則化的平⽅和誤差函數。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章