PRML2-概率分佈

本博文來自《PRML第二章》

在第一章中說了對於模式識別問題來說,核心角色就是概率論。本章的目的一方面是爲了介紹概率分佈,另一方面也是爲了對後面遇到的那些複雜問題先打下基礎。本章關於分佈上的一個討論核心就是如何在給定有限的觀測集合基礎上對隨機變量的概率分佈進行建模,這也被稱之爲密度估計問題。本章中假設數據都是i.i.d 的。這裏我們的強調下密度估計問題其實是個病態問題,因爲對於某個觀測到的有限數據集來說,其實是會有無限個概率分佈可以可以如此表示。

       什麼分佈最合適是需要基於模型選擇問題上的考慮,比如第一章中說的多項式擬合問題,其實就是模式識別的一箇中心問題。本章先介紹基於離散隨機變量的二元和多元分佈和基於連續隨機變量的高斯分佈。這些都是參數化分佈的具體形式,這麼稱呼是因爲他們都是受到一些可調整參數的控制的,例如高斯中的均值和方差。所以在給定觀測的數據集基礎上,使用這些密度估計就需要選擇合適的參數值,在頻率學派的眼裏,這些值可以通過一些優化標準來得到,比如似然函數;而對於貝葉斯學派來說,是先引入參數上的先驗分佈,然後使用貝葉斯理論來計算在給定觀測數據基礎上的後驗分佈。

      在這其中有個重要的東西叫做共軛先驗,它可以讓後驗分佈有着與先驗一樣的函數形式,所以這對於貝葉斯的分析帶來了很大的便利。例如多元分佈中產生的共軛先驗叫做dirichlet分佈;一個高斯的均值的共軛先驗卻又是另一個高斯。所有的這些分佈其實都可以看成是分佈的指數族(exponential family)的具體情況。

      參數化方法的一個限制就是它對於一個分佈需要假設一個具體的函數形式,這使得對於特殊的應用來說總是有點不合適。相對的叫做非參數化密度估計方法,這裏面對於分佈的形式通常都是依賴於數據集的大小而定的。雖然這些模型還是包含着參數,不過它們是控制模型的複雜度的而不是分佈的形式。本章最後會介紹三個非參數化方法:直方圖、最近鄰、核。

2.1 二值變量

        先介紹單一的二值隨機變量。假設這是一個殘缺的硬幣,的概率可以通過參數表示,所以:


其中。所以。基於的概率分佈可以寫成:


這就是大家熟悉的伯努力分佈,可以很容易的證明該分佈是已經歸一化的,並且他的均值和方差爲:


對於數據集來說,似然函數是關於參數的函數,假設所有觀測得到的值都是獨立的從同一個分佈中採樣得到的,那麼似然函數爲:

                                    (2.1.4)

對於頻率學派的人來說,可以通過最大化似然函數或者最大化似然函數的log對數來求得。在伯努力分佈中,似然函數的形式爲:


將上面式子進行關於的求導,然後等於0,求得其最大似然估計:


這也被稱之爲採樣均值。如果我們將上面硬幣頭朝上的頻率表示成,那麼就可以將上面那個最大似然估計寫成:


不過假設我們拋這個硬幣只拋了三次,而且三次都是頭朝上的,那麼上述期望值就該爲1了,即。在這種情況下,通過最大似然函數得到的結果就是個百分百事件了,對於這種極端的情況下的例子,我們稱之爲最大似然函數過擬合。在下面會介紹如何通過引入一個基於的先驗分佈來解決該問題。

       對於單次伯努力實驗來說就是得0 和1 的概率,如果多次試驗(其中都是獨立的),這樣 就叫做二項式分佈,從式子(2.4.1)中可以知道二項式分佈是與成比例的:

                                                                  (2.1.8)

這裏:


而相對的二項式分佈的期望和方差爲:


ps:下面是二項式分佈的期望證明過程:

需要依賴的,組合恆等式:,假設我們有N次實驗,其中在這N次中成功的次數及其概率如下圖:


下面是推導過程:


或者另一種推導方式:即因爲每次試驗都是相互獨立的,所以對於期望來說,是每個期望獨立相加即可,而對於某次的伯努力試驗來說其期望就是爲,所以n次試驗就是n(此處即爲上面第一種推導的 p)。

2.1.1 beta分佈

       正如上面說的,對於小樣本量來說,最大似然方法求的參數有可能會過擬合。爲了通過貝葉斯角度來解決該問題,我們需要引入一個先驗分佈。這裏我們考慮先驗分佈的形式需要簡單的解釋,並且有許多有用的特性。我們注意到之前的似然函數是形式的因子的乘積,如果我們選擇的先驗是與和(1 - )的冪成比例的,那麼得到的後驗概率(與先驗和似然函數的積成比例),就可以得到與先驗一樣的函數形式了。這種特性就叫做共軛性(conjugacy)。這裏我們選擇的先驗叫做beta分佈:

                                         (2.1.1.1)

這裏是一個gamma函數:

上面(2.1.1.1)的係數可以確保該beta分佈是歸一化的,所以:


beta分佈的均值和方差爲:


上面的參數被稱爲超參數,因爲它們控制着參數。下圖展示了不同的超參數下beta分佈的形式:


圖中的(2.13)爲上面的式子(2.1.1.1)

現在,參數的後驗分佈可以通過將beta先驗(2.1.1.1)乘以二項似然函數(2.1.8)然後歸一化得到,其中後驗分佈有如下形式:

                                                     (2.1.1.6)

這裏,對應着拋硬幣頭朝下的次數。從上面式子可以看出它有着與先驗一樣的函數形式,反映了先驗關於似然函數的共軛性。這簡直就是另一個beta分佈,它的歸一化係數可以通過與(2.1.1.1)的對比得到:


假設當前這次試驗該數據集中觀察到發生的次數爲次,而對應的0的次數發生了次。從之前的先驗分佈到這裏的後驗分佈,的值分別增加了。我們可以簡單的理解成先驗中的超參數和0的有效觀測數。注意這裏的不需要是整數。更進一步來說,這裏的後驗分佈可以當成是在觀察後續額外數據的先驗。即假設一次觀察一個樣本,然後更新當前的後驗分佈。只要將新的樣本的似然函數乘以當前的後驗分佈,然後歸一化得到新的後驗分佈即可。在每個階段來說,該後驗分佈都是一個在給定參數的基礎上觀測到和0的總數的beta分佈而已。



(圖中2.9爲式子2.1.8)

從貝葉斯角度來說,順序學習的方法是很自然的。這種方法與先驗和似然函數的選擇無關,只取決於數據i.i.d 的假設 ,順序學習可以一次使用一個觀測樣本或者一個小批量,然後在使用下一個觀測樣本之前拋棄它們。


(個人:這裏是基於給定一個數據集求下一個目標爲1的概率,就等於基於之前的數據集先計算出參數的概率,然後通過該參數計算當前的目標的概率,這裏用到了乘法規則,而且因爲是連續的,所以採用連續變量的求概率方法,即積分形式)


參考文獻:



2015年09月11日 第0次修改!


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章