貝葉斯估計
標籤: 模式分類
@author lancelot-vim
類條件密度
貝葉斯分類方法的核心是後驗概率P(wi|x⃗ ) 的計算。貝葉斯公式告訴我們,如何根據類條件概率密度p(x⃗ |wi) 和各類別的先驗概率P(wi) 來計算這個後驗概率,加入你有數據集D ,那麼根據貝葉斯公式:P(wi|x⃗ ,D)=p(x⃗ |wi,D)P(wi|D)∑cj=1p(x⃗ |wj,D)P(wj|D)
這個公式告訴我們,我們需要用已有的數據確定類條件概率密度p(x⃗ |wi,D) 和先驗概率P(wi|D) ,通常計算P(wi|D) 是很容易的,即頻率等於概率balabala就可以算出這個概率值來,但是類條件概率密度並不是那麼容易的,實際上,對於每個樣本,僅僅只有同一類別的樣本對於該類別的類條件密度是有意義的
比如說,如果i≠j ,那麼Di 對於計算p(x⃗ |wj,D) 沒有任何意義,因此通常只用Di 確定p(x⃗ |wi,D) ,也就是說貝葉斯公式可以寫爲:P(wi|x⃗ ,D)=p(x⃗ |wi,Di)P(wi)∑cj=1p(x⃗ |wj,Dj)P(wj)
因此,我們處理的核心問題,實際上是根據一組訓練樣本Di ,估計分佈p(x⃗ |Di) ,簡單記Di 爲D ,p(x⃗ |Di) 爲p(x⃗ |D)
參數的分佈
我們總是認爲分佈p(x⃗ ) 的形式是已知的,但是參數θ⃗ 並不知道,實際上我們需要做的事,是根據數據的到最好的θ⃗ 。
假如我們有一些先驗知識,比如你對θ⃗ 有點感覺,他大概等於多少,或者可能是多少(這個感覺可以很模糊,也可以基本不確定,這都不會造成問題),那麼這個問題我們可以等價爲p(x⃗ |θ⃗ ) 是已知的,並且確定的,而θ⃗ 的不確定問題(或者說你的先驗的感覺),可以歸納成一個概率分佈p(θ⃗ ) ,整個概率便可以重新寫成:
公式(1): p(x⃗ |D)=∫p(x⃗ ,θ⃗ |D)dθ⃗ =∫p(x⃗ |θ⃗ )p(θ⃗ |D)dθ⃗
這個公式是貝葉斯估計的核心公式,他把類條件密度和後驗概率相結合,將這個問題劃歸爲一個優化後驗概率密度p(θ⃗ |D) 的問題。假如這個後驗密度在某個值θ^ 附近形成一個尖峯(最後收斂到狄拉克雷函數),那麼自然有p(x⃗ |D)≈p(x⃗ |θ^) ,假如沒有收斂,甚至可能形成了一個平均,that’s fine,我們可以認爲p(x⃗ |D) 是一種概率意義上的加權平均值
高斯情況
我們考慮期望u 未知的情況,即: p(x|u)∼N(u,σ2) ,σ 已知
我認爲所有關於均值u 的知識全部包含在先驗概率密度函數p(u)∼N(u0,σ20) 中,其中u0,σ0 均已知
由於我們已經有很多樣本,所以我們需要計算後驗概率密度p(u|D) 對先驗知識產生的密度p(u) 進行更新
公式(2): p(u|D)=p(D|u)p(u)∫p(D|u)p(u)du=αΠnk=1p(xk|u)p(u)
其中,α 爲依賴與樣本集D 的歸一化係數,p(xk|u)∼N(u|σ2),p(u)∼N(u0,σ2)
根據高斯分佈密度函數,可以得到
p(u|D)=αΠnk=112π√σexp[−12(xk−uσ)2]exp[−12(u−u0σ0)2] =α′exp[−12[(nσ2+1σ2)u2−2(1σ2∑nk=1xk+u0σ20)]] =12π√σnexp[−12(u−unσn)2]
其中1σ2n=nσ2+1σ20,unσ2n=nσ2u^n+u0σ20(u^n=1nΣnk=1xk)
最後解得:
un=nσ20nσ20+σ2u^n+σ2nσ20+σ2u0
σ2n=σ20σ2nσ20+σ2
對於多變量情形,類似有
u⃗ n=Σ0(Σ0+1nΣ)−1u^n+1nΣ(Σ0+1nΣ)−1u0
Σn=Σ0(Σ0+1nΣ)−11nΣ
最後根據公式(1),實際上可以的到p(x⃗ |D)∼N(u⃗ n,Σ+Σn)
貝葉斯參數估計一般理論
基本假設
- 條件概率p(x|θ) 是完全已知的,雖然參數θ 值未知
- 參數θ 的先驗概率密度函數p(θ) 包含了我們對θ 的所有先驗知識
- 觀測到的樣本獨立同分布
遞歸算法
記Dn=x1,x2...xn ,由於樣本獨立同分布,可得p(Dn|θ)=p(xn|θ)p(Dn−1|θ)
代入公式(2)得:p(θ|Dn)=p(xn|θ)p(θ|Dn−1)∫p(xn|θ)p(θ|Dn−1)dθ,p(θ|D0)=p(θ)
最大似然估計和貝葉斯估計的區別
對於先驗概率能保證問題有解的問題下,最大似然估計和貝葉斯估計在訓練樣本趨於無窮大時候效果是一樣的。
計算複雜度
最大似然估計是比較好的選擇,因爲最大似然估計只涉及到微分運算或梯度搜索,而貝葉斯估計需要複雜的多重積分
可理解性
最大似然估計比貝葉斯方法更容易理解,因爲最大似然估計是基於設計者的設計和給出的樣本的到的最佳解答,而貝葉斯方法的結果是許多可行解答的加權平均,可以反映出對多種可行解答的不確定程度
對先驗知識的信任
最大死然估計得到的估計結果初始假設是一樣的,但對於貝葉斯估計未必成立。通過使用全部p(x⃗ |D) 中的信息,貝葉斯方法比最大似然方法能利用更多的信息,如果這些信息是可靠的,那麼貝葉斯方法能得到更可靠的結果。而且,即使沒有特定的先驗知識請跨下,貝葉斯估計也能的到和最大似然估計相似的結果