PRML 閱讀筆記(五)

2 Probability Distribution

    概率分佈在模式識別問題中扮演了很重要的角色,而我們常說的分佈都屬於參數分佈的範疇,因爲這些分佈都由一些列可調整的參數來控制,如正態分佈裏的均值與方差。從頻率學派的角度看,要通過一些優化準則來對參數的值進行改變,例如似然函數。而在貝葉斯的觀點看來,先對參數的先驗分佈進行預估,然後通過給定的樣本數據用貝葉斯理論來計算後驗分佈。

     關於共軛先驗:書上說共軛先驗的概念還是很重要的,大意是指後驗分佈與先驗分佈有相同的函數形式,即先驗分佈和後驗分佈屬於同一族。在得到後驗分佈後便可以將後驗分佈當作接下來的先驗分佈進行迭代。


2.1 Binary Variables

     這一章主要介紹了伯努利分佈和二項分佈,這個應該是概率統計裏的基礎知識,這裏就不贅述了。其中提到sufficient statistic,即充分統計量。統計量所包含的信息通常少於樣本,因爲統計量其實只是從一個或幾個角度觀察樣本。充分統計量,即對於我們的統計模型,是指除了充分統計量外沒有任何其它來自相同樣本的統計量可以提供更多關於模型的未知參數的信息。 大意是指知道充分統計量的時候,統計模型的分佈也就確定了。


2.1.1 The beta distribution

     作者又提到了拋一枚硬幣,三次正面朝上的例子來說明最大似然函數的過擬合問題,爲了解決這個問題作者又引出了Bayes的觀點,想針對二項分佈的參數μ提出一個先驗分佈,這裏,作者選擇了beta分佈。

     

      beta分佈的均值和方差如下:

       

         其中a,b即所謂的hyperparameters,因爲他們控制了分佈的參數μ。此時通過將beta先驗分佈和二項似然函數想乘,留下那些與μ有關的部分,我們得到:

         

         後驗分佈的形式與先驗分佈是相同的,即我們所說的共軛分佈。而其實後驗分佈也是一個beta分佈(應該是經過一些列對於gamma函數的整合和計算得到的

         

          接下來,作者說明了其實beta分佈中的a,b可以稱爲x的有效觀察量。而先驗分佈和後驗分佈的差別僅是當加入新的觀察量時a會變爲a+m,b會變爲b+l,那麼可以把a+m和b+l看作新的a,b,從而就可以把後驗分佈當作先驗分佈,每加入一個或一小批新的觀察量,做一次更新,這樣的方法可以用於實時的學習場景下。作者在書中提到:

           

          “這樣,問題獨立於對於先驗概率的選擇和似然函數,只依賴於獨立同分布的假設”。那麼我們如何選擇a,b的初值呢,假設我們在沒有任何樣本的前提下,另外,書中提到a,b可以不是整數,有什麼意義?選擇初值的時候更靈活?

         我們的目標要對輸入變量進行預測。所以作者推導出了結果,即:

         

          有點像laplace平滑,我們通過a,b來避免了過擬合,當拋硬幣仍然出現連續三次正面的時候,在之後進行預測的時候我們可以給定一個相對合理一點的值了。

          對於之後的內容,通過樣本的增加,可以減小後驗概率所變現的不確定性的部分,看的不是很明白。

2.2 Multinomial Variables

          各種階乘,向量真的是看的眼花繚亂,不過基本的內容還是粗淺懂了。

          對於二項分佈,隨機變量只有兩個可能取值,而多項式分佈中,隨機變量會有多個可能取值,表示爲:

         

          接下來的公式不一一說明了,浪費時間,也沒有什麼更多的理解,搞明白多項式分佈的含義,即有N個獨立隨機變量,每個隨機變量有K個取值。而Dirichlet分佈是多項式分佈的共軛先驗。其實,多項式分佈是二項分佈在X的可能取值上的擴展,所以基本內容同二項分佈類似。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章