機器學習之極大似然估計的詳細理解

極大似然估計,只是一種概率論在統計學的應用,它是參數估計的方法之一。


求最大似然估計量 θ^ 的一般步驟:

  1. 寫出似然函數
  2. 對似然函數取對數,並整理
  3. 求導數
  4. 解似然方程。

    最大似然估計的特點:

    1) 比其他估計方法更加簡單
    2)收斂性:無偏或者漸進無偏,當樣本數目增加時,收斂性質會更好
    3)如果假設的類條件概率模型正確,則通常能獲得較好的結果。但如果假設模型出現偏差,江東安置非常差的估計結果。


    最大似然估計的目的就是:利用已知的樣本結果,反推最有可能(最大概率)導致這樣結果的參數值。
    極大似然原理最簡單的理解就是:樣本所展現的狀態便是所有可能狀態中出現概率最大的狀態。

    多數情況下我們是根據已知條件來推算結果,而最大似然估計是已經知道了結果,然後尋求使該結果出現的可能性最大的條件,以此作爲估計值。


極大似然估計的例子:

現在有一個黑箱子裏面有標有1或2的球共100個,現在從中有放回的抽取10個球,結果爲{1,2,2,2,1,2,2,1,2,2},估計標有1的球在黑箱子裏面有多少個。

我們不妨把標有1的球設爲θ 個,那麼抽到1的概率P(x=1)=θ100 ,這裏簡單記做p,則產生實驗結果{1,2,2,2,1,2,2,1,2,2}的概率爲P=p3(1p)7 ,這裏的待估計參數爲 θ ,但是爲了方便不妨把待估參數看做p (p=θ100) 。那麼極大似然估計法的目標就是調整p使得總概率P最大!換句話說,P是一個關於p的函數,不妨記做P(p)
爲了後續計算,對P取對數。

l(p)=ln(P(p))=3ln(p)+7ln(1p)

爲了使l(p) 最大,那麼求導可知

lp=3p71p=310pp(1p)=0

可以計算出p = 0.3, 即待估計參數 θ 的極大似然估計值爲30個。


原理:極大似然估計是建立在極大似然原理的基礎上的一個統計方法,是概率論在統計學中的應用。極大似然估計提供了一種給定觀察數據來評估模型參數的方法,即:“模型已定,參數未知”。通過若干次試驗,觀察其結果,利用試驗結果得到某個參數值能夠使樣本出現的概率爲最大,則稱爲極大似然估計。

由於樣本集中的樣本都是獨立同分布,可以只考慮一類樣本集D,來估計參數向量 θ 。記已知的樣本集爲:
D = {x1,x2,x3,...,xN }
似然函數(likehood function):聯合概率密度函數p(D|θ) 成爲相對於{x1,x2,...,xN }的 θ 的似然函數。

l(θ)=p(D|θ)=p(x1,x2,...,xN|θ)=i=1Np(xi|θ)
如果 θ^ 是參數空間中能使似然函數 l(θ) 最大的 θ 值,θ^ 應該是“最有可能”的參數值,那麼 θ^ 就是 θ 的極大似然估計量。它是樣本集的函數,記做:

θ^=d(x1,x2,...,xN)=d(D)θ^(x1,x2,...,xN) 稱作極大似然函數估計值

求解極大似然函數
ML估計:求使得出現該組樣本的概率最大的 θ 值。

θ^=argmax l(θ)=argmaxi=1Np(xi|θ)

實際中爲了便於分析,定義了對數似然函數:
H(θ)=ln l(θ)

θ^=argmax H(θ)=argmax lnl(θ)=argmax i=1Nlnp(xi|θ)

1)未知參數只有一個(θ 爲標量)
在似然函數滿足連續、可微的正則條件下,極大似然估計量是下面微分方程的解:

dl(θ)dθ=0dH(θ)dθ=d lnl(θ)dθ=0

2)未知函數有多個(θ 爲向量)
θ 可表示爲具有S個分量的未知向量:

θ=[θ1,θ2,...,θS]T

記梯度算子:

θ=[θ1,θ2,...,θN]T

若似然函數滿足連續可導的條件,則最大似然估計量就是如下方程的解。

θH(θ)=θln l(θ)=i=1NθlnP(xi| θ)=0

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章