1.2 Probability Theory （下）

今天開始學Pattern Recognition and Machine Learning (PRML)，章節1.2，Probability Theory （下）

今天把1.2寫完，這一節講了很多重要的基礎內容。

1.2.3 貝葉斯概率

這一節的上半部分，我們結合一個盒子-水果抽取的問題，從隨機可重複事件頻率的角度理解了概率，這是經典的一種通過頻率來理解概率的角度，接下來我們用貝葉斯角度來理解概率，重點關注不確定性。

有些事件稱之爲不確定事件，比如月亮是不是曾經圍繞太陽旋轉，北極的冰是否會在一百年後消失，這些事件都沒辦法通過重複事件來確定概率。但是我們可以通過其他一些手段來得到一些結果，比如我們可以通過觀察每年冰層的消融比率來確定是否有可能消失。當然，人們會通過這些結果來指導未來的活動（decision），比如減少溫室氣體的排放，通過這些行爲，我們需要重新評估冰層消失的可能。這裏引出了從貝葉斯角度看概率。

在模式識別領域，我們需要一種更通用的關於概率的表達。1.1節中提到多項式擬合問題，我們當然可以很自然的用訓練集的頻率來代表隨機變量tn(target value)的概率，但是對於估計正確參數w來說，我們更應該用不確定性來理解，從貝葉斯角度來解釋概率論中的不確定性，用於模型參數估計以及模型的選擇。

假設在觀察數據之前，我們有一個關於w的先驗p(w)，那麼根據w我們觀察到數據集D：可以用條件概率來表示p(D|w)，貝葉斯定理可以表達爲：

根據上式，我們可以根據給定的觀察數據D，來估計w的不確定性，即w的後驗概率p(w|D)。其中的條件概率p(D|w)可以表示成關於w的一個function，稱之爲似然方程（likelihood function）。可以理解爲在給定w的情況下，觀察到當前D的可能性。注意：似然並不是關於w的概率密度函數。

P(D)是不變的，可以理解爲一個歸一化常數，因此，我們可以得到正比關係：

後驗是關於w的概率密度函數，因此它關於w的積分爲1。另外，P(D)可以理解爲全概率公式，

一種廣泛使用的統計估計方法是最大似然估計，通過最大化似然方程p(D|w)來得到w。意思是說找到一個w，使得觀察到當前D的概率最大化。很多情況下，我們用-ln（p(D|w)）來求解最小值，主要是爲了方便，並且ln是單調的。

前面提到的貝葉斯方法（1.44），一個很重要的好處是非常自然地引入了先驗p(w)，使得我們的估計不會太極端。比如我們對投硬幣問題觀察到每一次訓練數據都是正面，那麼最大似然估計得到正面的概率將是1。通過先驗的調整我們可以避免這種極端情況。

當然，貝葉斯理論也有它的缺點：有的時候設計者爲了計算的方便而選擇某個形式的先驗，卻不是因爲相信數據符合這樣的先驗。如果先驗很爛，那麼貝葉斯模型的結果往往會很爛。而直接的統計估計方法（如最大似然）可以避免這些問題，並且可以利用例如cross-validation （本章後面有介紹）這樣的方法來調參。

1.2.4 高斯分佈

高斯分佈（正態分佈）大概是最重要的關於連續型隨機變量的一種概率分佈了。關於一個單一的實變量x來說，高斯分佈定義爲

其中，叫做均值mean，叫做方差variance。高斯分佈是由這兩個參數決定的。另外叫做precision。圖1.13繪製了一個典型的高斯分佈。

通過下面兩個性質：

我們可以知道高斯分佈是一個概率密度函數。

通過期望和方差的定義，我們可以求得

這也是叫做均值mean，叫做方差variance的由來。

定義在一個D維度的連續型隨機變量（一個向量）x的高斯分佈是：

其中均值是D維的，協方差是D*D維的。

假設每一個數據點xi都是獨立同分布的，那麼基於給定的均值、方差，生成一個數據集x的概率是

也就是似然方程的形式。我們通過最大化似然方程來找到使得生成這樣數據集的概率最大的參數。這裏有一點繞，理論上我們應該去給定數據集尋找參數的最大概率，這樣更自然一些；不過這個目標和最大似然是有聯繫的，後面會涉及到。基於(1.53)式我們也更容易理解爲什麼常常需要對似然方程取ln計算，因爲取對數之後使得連乘變成了連加，方便計算，同時保證了計算機的精度是有效的。取對數後我們可以得到似然方程：

最大化該式（分別對）可以得到均值和方差的最大似然估計：

可以看到，結果分別是樣本均值和樣本方差。這樣的方法和結果看起來都很簡單也有道理，那是不是說以後我們只要計算樣本均值和樣本方差就行了呢？進一步探究最大似然的結果我們可以發現它有一些不足之處——本質上，它低估了真實方差。我們來求上述解的期望，通過帶入期望的定義，不難得到：

可以看到，樣本方差的期望不等於真實方差（假設的，未知的），也就是說最大似然的方差估計是有偏估計。這是一種稱之爲bias的現象（之一），在很多模型中，正是因爲最大似然這種bias造成了模型的over-fitting（過擬合）。

1.2.5 曲線擬合問題再思考

讓我們繼續回到前一節講的曲線擬合問題中，來逐步揭開更加概率角度的模型理解，用完全貝葉斯角度去做。

我們用不確定性來表達需要求的目標值t（target value）——用概率分佈來表達。假設給定一個數據點x，它的目標值t服從一個高斯分佈（均值爲y(x,w)，方差爲），那麼：

由下圖1.16可以看到，紅線表示曲線擬合的結果，在每一個點x0上，得到目標值t是在一個範圍內變化的。

對（1.60）取對數，得到：

當我們對w求極值的時候，可以看其他參數都是已知的常數，因此最小化（1.62）就等價於最小化這一部分。而這一部分就恰恰是前面我們提到過的error function，稱爲sum-of-squares。有了w的似然估計以後，我們類似的可以求出precision 的估計值：

好了，當我們有了之後，現在我們可以預測t的概率分佈了：

這和我們之前用error function計算最優w再直接得到y作爲t的預測不同，現在t是符合一個分佈的。

當然，上述結果仍然略顯簡單，更進一步貝葉斯的方法是引入w的先驗。讓我們假設w符合下面這樣的高斯分佈：

其中控制了參數w的分佈，像這樣的參數稱之爲超參數。通過貝葉斯定理，可以表達出w的後驗概率：

這樣我們可以計算w最有可能的取值，在給定數據集（訓練集x,t）的情況下。這種方法稱爲maximum posterior (MAP) 。

用和之前類似的方法，對（1.66）取-ln()，等價於最小化：

這和之前提到的帶正則項的error function（regularized sum-of-squares）是一樣的。可見，引入了先驗在這個例子下面起到了調節過擬合的作用。

1.2.6 貝葉斯曲線擬合

繼續思考前面的例子，雖然我們引入了w的先驗，但是我們本質上仍然在做w的點估計，即我們得到了一個我們認爲最優的w，然後再得到t的估計。事實上，真正貝葉斯的方法因該是對所有w做積分，叫做marginalization，這纔是貝葉斯理論的核心所在。應該是這樣做的：在給定訓練數據集x，t下，我們對所有w的取值求積分