貝葉斯統計

貝葉斯模型簡介

在統計模型中經常需要使用估計一些參數,而大部分人都瞭解如何進行點估計,例如最大似然估計和矩估計。如果學過機器學習的人估計也會知道什麼是最大後驗估計MAP,也就是ˆθ=argmaxp(θ|D)。在貝葉斯模型中如何計算全面的後驗分佈式非常重要的,然後通過後驗分佈來計算一些未知的參數和知識。

對後驗分佈的總結

如果只用一個點估計來代表p(θ|D)這個後驗的所有特性的話,那麼我們就必須選一個比較合理的估計點,這時候往往是可以選擇後驗分佈的中值,均值。有時候會選擇mode(概率最大的θ)。但是很多時候我們不能直接使用這些值最爲估計的結果往往不是一個好的選擇,因爲我們會丟失很多的其他後驗分佈的信息。
使用一個點估計來實現對後驗的模型估計往往不是很可靠,因爲我們無法確定這個點估計的可靠性,這時候我們自然會希望使用一個區間來描述這個後驗分分佈範圍,爲了儘量精簡的描述這個區間,我們通常希望設定一個100(1 − α)%credible interval,設定這個區間爲C = (l, u),那麼我們就可以認爲後驗分佈的100(1−α)%值都是在這個區間內,但是這時候有可能會出現一個新的問題,這個區間內的後驗估計值可能不是那些概率最高的值域,考慮圖(1)的(a)圖,假設某個問題的後驗分佈如圖(1)所示,只用100(1 − α)% credible interval的方法我們可能得到的區間的概率值就不是概率最大的部分。


圖(1)

但是我們還是有其他方法解決這個問題的,那就是使用 Highest posterior density regions,這時候仍然選擇100(1 − α)%的區間,但是這時候不是直接使用credible interval的方法,而是選擇概率最大的那些後驗分佈區間,在credible interval方法中,我們假設知道了後驗分佈的,這時候我們就是用l= F−1(α/2) ,u = F−1(1−α/2),假設我們知道一個分佈的後驗分佈的是高斯分佈p(θ|D) = N(0, 1),那麼我們就可以使用並且α = 0.05, 這時候就有l = Φ(α/2) = −1.96,並且u = Φ(1 − α/2) = 1.96。這也告訴我們對於一個後驗高斯分佈的credible interval區間我們通常可以選擇μ ± 2σ 。但是通常後驗分佈不是高斯分佈。如果我們不知道後驗分佈的形式,那麼這時候可以從後驗分佈中進行採樣,比較常用的方法就是使用Monte Carlo approximation

接下來再來講解怎麼進行Highest posterior density regions的處理工作,由於後驗分佈式非常重要的

                                            (1)

公式(1)確定區間中的概率P的最小值,接着要做的就是去求解這個區間了,最後的計算的HPD就是

                                 (2)

只用HPD方法,圖(1)中的置信區間自然就變化了,變化後的結果參考圖(1)b中的部分。

今天先寫到這吧,接下來還有很多東西要補償。








發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章