机器学习之极大似然估计的详细理解

极大似然估计,只是一种概率论在统计学的应用,它是参数估计的方法之一。


求最大似然估计量 θ^ 的一般步骤:

  1. 写出似然函数
  2. 对似然函数取对数,并整理
  3. 求导数
  4. 解似然方程。

    最大似然估计的特点:

    1) 比其他估计方法更加简单
    2)收敛性:无偏或者渐进无偏,当样本数目增加时,收敛性质会更好
    3)如果假设的类条件概率模型正确,则通常能获得较好的结果。但如果假设模型出现偏差,江东安置非常差的估计结果。


    最大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。
    极大似然原理最简单的理解就是:样本所展现的状态便是所有可能状态中出现概率最大的状态。

    多数情况下我们是根据已知条件来推算结果,而最大似然估计是已经知道了结果,然后寻求使该结果出现的可能性最大的条件,以此作为估计值。


极大似然估计的例子:

现在有一个黑箱子里面有标有1或2的球共100个,现在从中有放回的抽取10个球,结果为{1,2,2,2,1,2,2,1,2,2},估计标有1的球在黑箱子里面有多少个。

我们不妨把标有1的球设为θ 个,那么抽到1的概率P(x=1)=θ100 ,这里简单记做p,则产生实验结果{1,2,2,2,1,2,2,1,2,2}的概率为P=p3(1p)7 ,这里的待估计参数为 θ ,但是为了方便不妨把待估参数看做p (p=θ100) 。那么极大似然估计法的目标就是调整p使得总概率P最大!换句话说,P是一个关于p的函数,不妨记做P(p)
为了后续计算,对P取对数。

l(p)=ln(P(p))=3ln(p)+7ln(1p)

为了使l(p) 最大,那么求导可知

lp=3p71p=310pp(1p)=0

可以计算出p = 0.3, 即待估计参数 θ 的极大似然估计值为30个。


原理:极大似然估计是建立在极大似然原理的基础上的一个统计方法,是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。

由于样本集中的样本都是独立同分布,可以只考虑一类样本集D,来估计参数向量 θ 。记已知的样本集为:
D = {x1,x2,x3,...,xN }
似然函数(likehood function):联合概率密度函数p(D|θ) 成为相对于{x1,x2,...,xN }的 θ 的似然函数。

l(θ)=p(D|θ)=p(x1,x2,...,xN|θ)=i=1Np(xi|θ)
如果 θ^ 是参数空间中能使似然函数 l(θ) 最大的 θ 值,θ^ 应该是“最有可能”的参数值,那么 θ^ 就是 θ 的极大似然估计量。它是样本集的函数,记做:

θ^=d(x1,x2,...,xN)=d(D)θ^(x1,x2,...,xN) 称作极大似然函数估计值

求解极大似然函数
ML估计:求使得出现该组样本的概率最大的 θ 值。

θ^=argmax l(θ)=argmaxi=1Np(xi|θ)

实际中为了便于分析,定义了对数似然函数:
H(θ)=ln l(θ)

θ^=argmax H(θ)=argmax lnl(θ)=argmax i=1Nlnp(xi|θ)

1)未知参数只有一个(θ 为标量)
在似然函数满足连续、可微的正则条件下,极大似然估计量是下面微分方程的解:

dl(θ)dθ=0dH(θ)dθ=d lnl(θ)dθ=0

2)未知函数有多个(θ 为向量)
θ 可表示为具有S个分量的未知向量:

θ=[θ1,θ2,...,θS]T

记梯度算子:

θ=[θ1,θ2,...,θN]T

若似然函数满足连续可导的条件,则最大似然估计量就是如下方程的解。

θH(θ)=θln l(θ)=i=1NθlnP(xi| θ)=0

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章