參數估計(2019/05/07更新)

1. 頻率學派與貝葉斯學派差別:

頻率學派認爲參數有一個固定得值,不會變化。 貝葉斯學派認爲模型得參數應該是隨機變量,即服從一個分佈。

 

2. 貝葉斯估計中重要的概率關係:

PP(x|\mu),P(x|D),P(\mu|D),P(x|D)

貝葉斯估計有幾個要點,

第一,我們要估計的參數也是服從一個分佈的。

Note:因爲這個參數符合一個分佈,我們在求解算法的過程中會用到很多積分,比如,p(x|D)=\int p(x|\theta)p(\theta|D)d\theta

可以這樣理解這個公式:對於一個樣本點x的分佈,它是由\theta的所有可能取值來決定的。假如,我們把這個\theta看做一個神經網絡的參數,那麼我們對於x的估計就是所有可能神經網絡模型下,對x的估計的加權平均。權值是p(\theta|D)。這個權值就是我們從數據集D和先驗裏面推斷出來的,當這個p(\theta|D)取到最大的時候就是貝葉斯方法對theta的估計

從數學角度來看,頻率學派求解過程中是以求導爲主,而貝葉斯學派求解則會涉及到很多積分,對於貝葉斯,不同參數代表不同的模型,求積分的過程實際上就是對不同模型的加權平均。

 

第二,總體而言,貝葉斯派因爲使用積分,回比頻率學派複雜的多,在數據集大的時候,一般我們使用頻率學派的極大似然估計,而數據集較小的時候,我們偏向於使用貝葉斯估計。 當前常見的深度學習網絡,實際上是極大似然的一個應用,即頻率學派方法,(因爲數據集極其大),對於分類而言,最小化交叉熵就是在極大化似然函數。

 

第三,貝葉斯學派的一個優勢是,在使用貝葉斯估計時候,p(x|\theta)很有可能是隨着推斷改變的,這個極大似然不同,在極大似然的情況下,一旦假定了p(x|theta)的形式,那麼我們最後得到的概率分佈還是原來假定的形式。

(2019.05.07 最近在忙着幫老師寫申請書,慢慢寫把,太忙了)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章