最大似然估计和最大后验概率估计的区别

最大似然估计（MLE）
1.似然函数：L(θ|x)=P(X=x|θ)
①物理意义：某次实验，θ取不同值时，出现X=x的结果的概率；
②似然函数是参数(θ)的函数；
③似然函数是条件转移概率。

例1：设一枚硬币正面朝上的概率为p，求两次抛掷都正面朝上的似然函数。
L(p|HH)=P(HH|p)=p*2
可以看到，L是参数p的似然函数。当p=0.5时，L=0.25，这与实际概率相吻合。当p=1 时,L=1，这表示当这枚硬币只有正面时，出现“两次朝上”这一结果的概率为100%。

2.最大似然估计
原理：对某（一批）实验结果（或者说样本值）求关于参数的似然函数，并求参数取何值时，似然函数的值最大，该参数即为估计结果，该方法即为最大似然估计法。

例1中，最大似然估计的结果为p=1

最大后验概率估计（MAP）
1.后验概率：P(θ|X=x)=P(X=x|θ)P(θ) / P(X=x)
物理意义：某次实验，样本为X=x时，θ在不同取值下的概率；
2.最大后验概率
由于分母P(X=x)=Σi P(X=x|θi)=常数，因而后验概率P(θ|X=x)取得最大值时，分子也取得最大值，问题就变为求：使得P(X=x|θ)P(θ)取最大值的参数θ。
可以看到，MAP要求取最大值的函数，形式上就是在MLE的似然函数基础上乘以参数的先验概率，这表示MAP除了考虑参数与样本值的联系外，还考虑了参数本身的先验概率。
再看例1，如果用MLE对参数p进行估计，仅根据样本推断实际，得出结果“硬币只有正面”的结论；但用MAP方法时，我们首先认为“硬币只有正面”这件事情的概率是很低的，因而其后验概率也低，而P(p=0.5)的概率是最高的，因而乘上条件转移概率后，其后验概率也会比较大。

MLE和MAP的比较
异：
1.MLE仅根据已有样本估计参数，MAP则根据已有样本和参数的先验概率共同估计参数；
2.样本较少时，MAP更准确；样本比较多时，MLE更省事。
同：
1.MLE和MAP都是点估计；
2.当先验等概时，两者估计结果相同。

深度学习中softmax函数与MLE/MAP的关系
在CS231n课程笔记（https://zhuanlan.zhihu.com/p/20945670?refer=intelligentunit）中，认为softmax的输出概率是似然函数P(P|w)，使交叉熵(负对数概率)降低的最优化过程即为最大似然估计。而加上正则化损失则被比作“加上先验概率”。

查了一些资料后谈一下我对这种比喻的理解：
1.“正则化”与“先验概率”却有异曲同工之妙。正则化抑制不合常规的样本点（噪声），MAP中考虑先验概率则是抑制不合常规的概率事件，如例1中硬币只有正面。
2.两者只是功能类似，但物理意义上是没有关系的。
3.且添加正则化损失是加法，考虑先验概率是乘法。

有关贝叶斯估计的方法，等之后再学习和总结。
参考文章：
http://blog.csdn.net/u011508640/article/details/72815981

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

最大似然估计和最大后验概率估计的区别

Spring Cloud 部署时如何使用 Kubernetes 作为注册中心和配置中心

最大似然估計和最大後驗概率估計的區別

【tensorflow】文件隊列的兩種創建和加載方式

【深度學習】目標檢測0

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結