最大似然估計和最大後驗概率估計的區別

最大似然估計(MLE)
1.似然函數:L(θ|x)=P(X=x|θ)
①物理意義:某次實驗,θ取不同值時,出現X=x的結果的概率;
②似然函數是參數(θ)的函數;
③似然函數是條件轉移概率。

例1:設一枚硬幣正面朝上的概率爲p,求兩次拋擲都正面朝上的似然函數。
L(p|HH)=P(HH|p)=p*2
可以看到,L是參數p的似然函數。當p=0.5時,L=0.25,這與實際概率相吻合。當p=1 時,L=1,這表示當這枚硬幣只有正面時,出現“兩次朝上”這一結果的概率爲100%。

2.最大似然估計
原理:對某(一批)實驗結果(或者說樣本值)求關於參數的似然函數,並求參數取何值時,似然函數的值最大,該參數即爲估計結果,該方法即爲最大似然估計法。

例1中,最大似然估計的結果爲p=1

最大後驗概率估計(MAP)
1.後驗概率:P(θ|X=x)=P(X=x|θ)P(θ) / P(X=x)
物理意義:某次實驗,樣本爲X=x時,θ在不同取值下的概率;
2.最大後驗概率
由於分母P(X=x)=Σi P(X=x|θi)=常數,因而後驗概率P(θ|X=x)取得最大值時,分子也取得最大值,問題就變爲求:使得P(X=x|θ)P(θ)取最大值的參數θ。
可以看到,MAP要求取最大值的函數,形式上就是在MLE的似然函數基礎上乘以參數的先驗概率,這表示MAP除了考慮參數與樣本值的聯繫外,還考慮了參數本身的先驗概率。
再看例1,如果用MLE對參數p進行估計,僅根據樣本推斷實際,得出結果“硬幣只有正面”的結論;但用MAP方法時,我們首先認爲“硬幣只有正面”這件事情的概率是很低的,因而其後驗概率也低,而P(p=0.5)的概率是最高的,因而乘上條件轉移概率後,其後驗概率也會比較大。

MLE和MAP的比較
異:
1.MLE僅根據已有樣本估計參數,MAP則根據已有樣本和參數的先驗概率共同估計參數;
2.樣本較少時,MAP更準確;樣本比較多時,MLE更省事。
同:
1.MLE和MAP都是點估計;
2.當先驗等概時,兩者估計結果相同。

深度學習中softmax函數與MLE/MAP的關係
在CS231n課程筆記(https://zhuanlan.zhihu.com/p/20945670?refer=intelligentunit)中,認爲softmax的輸出概率是似然函數P(P|w),使交叉熵(負對數概率)降低的最優化過程即爲最大似然估計。而加上正則化損失則被比作“加上先驗概率”。

查了一些資料後談一下我對這種比喻的理解:
1.“正則化”與“先驗概率”卻有異曲同工之妙。正則化抑制不合常規的樣本點(噪聲),MAP中考慮先驗概率則是抑制不合常規的概率事件,如例1中硬幣只有正面。
2.兩者只是功能類似,但物理意義上是沒有關係的。
3.且添加正則化損失是加法,考慮先驗概率是乘法。

有關貝葉斯估計的方法,等之後再學習和總結。
參考文章:
http://blog.csdn.net/u011508640/article/details/72815981

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章