最大似然估計和最大後驗概率估計的區別

最大似然估計（MLE）
1.似然函數：L(θ|x)=P(X=x|θ)
①物理意義：某次實驗，θ取不同值時，出現X=x的結果的概率；
②似然函數是參數(θ)的函數；
③似然函數是條件轉移概率。

例1：設一枚硬幣正面朝上的概率爲p，求兩次拋擲都正面朝上的似然函數。
L(p|HH)=P(HH|p)=p*2
可以看到，L是參數p的似然函數。當p=0.5時，L=0.25，這與實際概率相吻合。當p=1 時,L=1，這表示當這枚硬幣只有正面時，出現“兩次朝上”這一結果的概率爲100%。

2.最大似然估計
原理：對某（一批）實驗結果（或者說樣本值）求關於參數的似然函數，並求參數取何值時，似然函數的值最大，該參數即爲估計結果，該方法即爲最大似然估計法。

例1中，最大似然估計的結果爲p=1

最大後驗概率估計（MAP）
1.後驗概率：P(θ|X=x)=P(X=x|θ)P(θ) / P(X=x)
物理意義：某次實驗，樣本爲X=x時，θ在不同取值下的概率；
2.最大後驗概率
由於分母P(X=x)=Σi P(X=x|θi)=常數，因而後驗概率P(θ|X=x)取得最大值時，分子也取得最大值，問題就變爲求：使得P(X=x|θ)P(θ)取最大值的參數θ。
可以看到，MAP要求取最大值的函數，形式上就是在MLE的似然函數基礎上乘以參數的先驗概率，這表示MAP除了考慮參數與樣本值的聯繫外，還考慮了參數本身的先驗概率。
再看例1，如果用MLE對參數p進行估計，僅根據樣本推斷實際，得出結果“硬幣只有正面”的結論；但用MAP方法時，我們首先認爲“硬幣只有正面”這件事情的概率是很低的，因而其後驗概率也低，而P(p=0.5)的概率是最高的，因而乘上條件轉移概率後，其後驗概率也會比較大。

MLE和MAP的比較
異：
1.MLE僅根據已有樣本估計參數，MAP則根據已有樣本和參數的先驗概率共同估計參數；
2.樣本較少時，MAP更準確；樣本比較多時，MLE更省事。
同：
1.MLE和MAP都是點估計；
2.當先驗等概時，兩者估計結果相同。

深度學習中softmax函數與MLE/MAP的關係
在CS231n課程筆記（https://zhuanlan.zhihu.com/p/20945670?refer=intelligentunit）中，認爲softmax的輸出概率是似然函數P(P|w)，使交叉熵(負對數概率)降低的最優化過程即爲最大似然估計。而加上正則化損失則被比作“加上先驗概率”。

查了一些資料後談一下我對這種比喻的理解：
1.“正則化”與“先驗概率”卻有異曲同工之妙。正則化抑制不合常規的樣本點（噪聲），MAP中考慮先驗概率則是抑制不合常規的概率事件，如例1中硬幣只有正面。
2.兩者只是功能類似，但物理意義上是沒有關係的。
3.且添加正則化損失是加法，考慮先驗概率是乘法。

有關貝葉斯估計的方法，等之後再學習和總結。
參考文章：
http://blog.csdn.net/u011508640/article/details/72815981

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

最大似然估計和最大後驗概率估計的區別

【面試準備】又一次失敗的面試經歷，題目離譜～資深軟件測試工程師

dotnet 8 版本與銀河麒麟V10和UOS系統的 glibc 兼容性

最大似然估計和最大後驗概率估計的區別

【tensorflow】文件隊列的兩種創建和加載方式

【深度學習】目標檢測0

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結