最大似然估计和最大后验概率估计的区别

最大似然估计(MLE)
1.似然函数:L(θ|x)=P(X=x|θ)
①物理意义:某次实验,θ取不同值时,出现X=x的结果的概率;
②似然函数是参数(θ)的函数;
③似然函数是条件转移概率。

例1:设一枚硬币正面朝上的概率为p,求两次抛掷都正面朝上的似然函数。
L(p|HH)=P(HH|p)=p*2
可以看到,L是参数p的似然函数。当p=0.5时,L=0.25,这与实际概率相吻合。当p=1 时,L=1,这表示当这枚硬币只有正面时,出现“两次朝上”这一结果的概率为100%。

2.最大似然估计
原理:对某(一批)实验结果(或者说样本值)求关于参数的似然函数,并求参数取何值时,似然函数的值最大,该参数即为估计结果,该方法即为最大似然估计法。

例1中,最大似然估计的结果为p=1

最大后验概率估计(MAP)
1.后验概率:P(θ|X=x)=P(X=x|θ)P(θ) / P(X=x)
物理意义:某次实验,样本为X=x时,θ在不同取值下的概率;
2.最大后验概率
由于分母P(X=x)=Σi P(X=x|θi)=常数,因而后验概率P(θ|X=x)取得最大值时,分子也取得最大值,问题就变为求:使得P(X=x|θ)P(θ)取最大值的参数θ。
可以看到,MAP要求取最大值的函数,形式上就是在MLE的似然函数基础上乘以参数的先验概率,这表示MAP除了考虑参数与样本值的联系外,还考虑了参数本身的先验概率。
再看例1,如果用MLE对参数p进行估计,仅根据样本推断实际,得出结果“硬币只有正面”的结论;但用MAP方法时,我们首先认为“硬币只有正面”这件事情的概率是很低的,因而其后验概率也低,而P(p=0.5)的概率是最高的,因而乘上条件转移概率后,其后验概率也会比较大。

MLE和MAP的比较
异:
1.MLE仅根据已有样本估计参数,MAP则根据已有样本和参数的先验概率共同估计参数;
2.样本较少时,MAP更准确;样本比较多时,MLE更省事。
同:
1.MLE和MAP都是点估计;
2.当先验等概时,两者估计结果相同。

深度学习中softmax函数与MLE/MAP的关系
在CS231n课程笔记(https://zhuanlan.zhihu.com/p/20945670?refer=intelligentunit)中,认为softmax的输出概率是似然函数P(P|w),使交叉熵(负对数概率)降低的最优化过程即为最大似然估计。而加上正则化损失则被比作“加上先验概率”。

查了一些资料后谈一下我对这种比喻的理解:
1.“正则化”与“先验概率”却有异曲同工之妙。正则化抑制不合常规的样本点(噪声),MAP中考虑先验概率则是抑制不合常规的概率事件,如例1中硬币只有正面。
2.两者只是功能类似,但物理意义上是没有关系的。
3.且添加正则化损失是加法,考虑先验概率是乘法。

有关贝叶斯估计的方法,等之后再学习和总结。
参考文章:
http://blog.csdn.net/u011508640/article/details/72815981

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章