原文鏈接:極大似然估計(MLE)學習總結
《每天解決一個知識點系列》
估計能翻到這一頁博文的盆友都是行走在機器學習/數據挖掘的路上吧,自學之路真的苦不堪言,於是下定決心把自己學到的知識點記下來,和初入機器學習之坑的基友們一起顯擺顯擺。話不多說,我將從一個小白的角度解讀一下我對極大似然估計的理解(我比較喜歡這樣叫,但爲了學習方便,我採取官方說法),各位看官請往下看。
-------------------------------我是羞羞的分割線-------------------------------------
我是比較喜歡概率論的東西,對於最大似然估計的概念大家可以通俗理解爲用觀察去猜測真實概率。比如給定一組觀察得到的樣本數據X,我們無法知曉這個隨機變量(其實是某個事件發生的屬性值,它有多重取值可能)真實的概率分佈函數是怎樣的。這時候我們希望通過收集到的樣本數據去猜哪個參數會影響分佈函數使得最終呈現出我們觀察到的這些樣本。
不過,我們聰明的統計學家已經爲我們觀察到了複雜世界存在的各種概率分佈情況及其對應的計算公式,如“正態分佈”、“二項分佈”、“泊松分佈”等。但細心的同學們一定會發現這些所謂的分佈發生的概率是有規律的,有各自的計算公式,如假設隨機事件X服從均值爲µ,方差爲σ2 的正態分佈函數,那麼事件X發生的概率如下:
但我們是不知道如何參數µ和σ是多少的,這時候就需要從樣本中去估計了。於是可以下一個結論,最大似然估計的意思就是在已知觀測數據X,參數θ未知的情況下求使出現該觀測樣本的概率值最大化,再反過來求解對應的參數值θ。說白了就是讓θ更好地體現出所觀察到的數據,也就是似然,而估計就是計算結果啦,也就是θ值,結合起來就叫做最大似然估計。
當然在這裏離不開貝葉斯公式的理解,我先帶頭裝X。根據貝葉斯公式:
式1-2
我的理解是對於兩個獨立影響的類別A和隨機事件B,即可以通過觀察A來推測B也可以通過B來觀察A,通過全概率公式,式1-2可以化爲:
式1-3
我們假設存在參數空間可以求得估計值Θ,只要從多個可行解中找到最大值即可,也就是:
式 1-5
這裏我們需要採用對數似然,爲什麼呢?大家看一下對數函數的曲線:
圖1-1
大家可以看到,當底數a>1,x趨於無窮大時,對數函數的增長會越來越平緩,也就是斜率k會越趨近於0,當k=0時就是y取得最大值了。這和微分求導不謀而合,所以我們可以把目標函數轉化爲對數函數:
式1-6
當參數θ有多個時(此時θ爲向量),則θ可表示爲具有S個分量的未知參數,
計算偏微分算子:
式1-8
只要令式1-8等於0進行似然方程求解就可以了。
最後我們總結一下最大似然估計的特點:
①比其他估計方法簡單,多部分傳統的機器學習算法都採用了該方法進行參數估計;
②收斂性,只要訓練樣本集夠大,理論上可以接近無偏估計;
③在選擇假設模型時必須非常慎重,若偏差太大會導致估計結果非常差。
------------------------------又是可愛的分割線--------------------------
參考博客:
https://blog.csdn.net/u011508640/article/details/72815981
https://blog.csdn.net/zengxiantao1994/article/details/72787849