1. 頻率學派與貝葉斯學派差別:
頻率學派認爲參數有一個固定得值,不會變化。 貝葉斯學派認爲模型得參數應該是隨機變量,即服從一個分佈。
2. 貝葉斯估計中重要的概率關係:
P
貝葉斯估計有幾個要點,
第一,我們要估計的參數也是服從一個分佈的。
Note:因爲這個參數符合一個分佈,我們在求解算法的過程中會用到很多積分,比如,。
可以這樣理解這個公式:對於一個樣本點x的分佈,它是由的所有可能取值來決定的。假如,我們把這個看做一個神經網絡的參數,那麼我們對於x的估計就是所有可能神經網絡模型下,對x的估計的加權平均。權值是。這個權值就是我們從數據集D和先驗裏面推斷出來的,當這個取到最大的時候就是貝葉斯方法對theta的估計
從數學角度來看,頻率學派求解過程中是以求導爲主,而貝葉斯學派求解則會涉及到很多積分,對於貝葉斯,不同參數代表不同的模型,求積分的過程實際上就是對不同模型的加權平均。
第二,總體而言,貝葉斯派因爲使用積分,回比頻率學派複雜的多,在數據集大的時候,一般我們使用頻率學派的極大似然估計,而數據集較小的時候,我們偏向於使用貝葉斯估計。 當前常見的深度學習網絡,實際上是極大似然的一個應用,即頻率學派方法,(因爲數據集極其大),對於分類而言,最小化交叉熵就是在極大化似然函數。
第三,貝葉斯學派的一個優勢是,在使用貝葉斯估計時候,很有可能是隨着推斷改變的,這個極大似然不同,在極大似然的情況下,一旦假定了p(x|theta)的形式,那麼我們最後得到的概率分佈還是原來假定的形式。
(2019.05.07 最近在忙着幫老師寫申請書,慢慢寫把,太忙了)