極大似然估計(MLE)學習總結

原文鏈接:極大似然估計(MLE)學習總結

    《每天解決一個知識點系列》

    估計能翻到這一頁博文的盆友都是行走在機器學習/數據挖掘的路上吧,自學之路真的苦不堪言,於是下定決心把自己學到的知識點記下來,和初入機器學習之坑的基友們一起顯擺顯擺。話不多說,我將從一個小白的角度解讀一下我對極大似然估計的理解(我比較喜歡這樣叫,但爲了學習方便,我採取官方說法),各位看官請往下看。

-------------------------------我是羞羞的分割線-------------------------------------

    我是比較喜歡概率論的東西,對於最大似然估計的概念大家可以通俗理解爲用觀察去猜測真實概率。比如給定一組觀察得到的樣本數據X,我們無法知曉這個隨機變量(其實是某個事件發生的屬性值,它有多重取值可能)真實的概率分佈函數是怎樣的。這時候我們希望通過收集到的樣本數據去猜哪個參數會影響分佈函數使得最終呈現出我們觀察到的這些樣本。

    不過,我們聰明的統計學家已經爲我們觀察到了複雜世界存在的各種概率分佈情況及其對應的計算公式,如“正態分佈”、“二項分佈”、“泊松分佈”等。但細心的同學們一定會發現這些所謂的分佈發生的概率是有規律的,有各自的計算公式,如假設隨機事件X服從均值爲µ,方差爲σ2 的正態分佈函數,那麼事件X發生的概率如下:

           式1-1

    但我們是不知道如何參數µ和σ是多少的,這時候就需要從樣本中去估計了。於是可以下一個結論,最大似然估計的意思就是在已知觀測數據X,參數θ未知的情況下求使出現該觀測樣本的概率值最大化,再反過來求解對應的參數值θ。說白了就是讓θ更好地體現出所觀察到的數據,也就是似然,而估計就是計算結果啦,也就是θ值,結合起來就叫做最大似然估計。

    當然在這裏離不開貝葉斯公式的理解,我先帶頭裝X。根據貝葉斯公式:

             式1-2

    我的理解是對於兩個獨立影響的類別A和隨機事件B,即可以通過觀察A來推測B也可以通過B來觀察A,通過全概率公式,式1-2可以化爲:

                式1-3

    舉個栗子,在當我憋着尿想要上廁所時,由於人多我只能排隊,這時我看到前面站着一位長頭髮的人,身材消瘦,打扮時尚,於是乎我想猜這個人是男是女。開始分析問題,由觀察已知,A1={性別爲男}=1/3,A2={性別爲女}=2/3,這就是所謂的先驗概率;然後別人告訴我來這裏上廁所的人中留長頭髮(事件B)的男生達到1/10,女生達到9/10,要怎麼求解問題呢?
    很簡單,P(B)=19/30,那麼留長頭髮的人是男生的猜測概率爲P(A1|B)=1/19,是女生的猜測概率P(A2|B)=18/19,這是後驗概率。大家自己代入上面的公式去算哦,其實你們在計算的時候有沒有發現,所謂的後驗概率其實就是男生或女生中有留長頭髮的事件發生的權重比,它高度依賴於先驗觀察到的概率。所以我們可以總結一下,如果想要根據僅有的樣本數據進行分類,一種可行的辦法是我們需要先對先驗概率和分類的條件概率進行估計才能套用貝葉斯公式。  先驗概率的估計較簡單,1、每個樣本所屬的自然狀態都是已知的或者需要依靠經驗進行設定。
     類條件概率的估計(非常難),原因包括:概率密度函數包含了一個隨機變量的全部信息;樣本數據可能不多;特徵向量x的維度可能很大等等。總之要直接估計類條件概率的密度函數很難。解決的辦法就是,把估計完全未知的概率密度轉化爲估計參數。這裏就將概率密度估計問題轉化爲參數估計問題,極大似然估計就是一種參數估計方法。當然了,概率密度函數的選取很重要,模型正確,在樣本區域無窮時,我們會得到較準確的估計值,如果模型都錯了,那估計半天的參數,肯定也沒啥意義了。
    再次舉個栗子演示如何求解參數θ。假設樣本集是獨立同分布的,現有樣本集合D={x1,x2,...,xn},聯合密度函數P(D|θ)稱爲相對於樣本集D參數爲θ的似然函數。令似然函數(Likelihood Function)等於如下公式:
            式1-4

    我們假設存在參數空間可以求得估計值Θ,只要從多個可行解中找到最大值即可,也就是:

                式 1-5 

    這裏我們需要採用對數似然,爲什麼呢?大家看一下對數函數的曲線:




                                           圖1-1


    大家可以看到,當底數a>1,x趨於無窮大時,對數函數的增長會越來越平緩,也就是斜率k會越趨近於0,當k=0時就是y取得最大值了。這和微分求導不謀而合,所以我們可以把目標函數轉化爲對數函數:

                      式1-6

    當參數θ有多個時(此時θ爲向量),則θ可表示爲具有S個分量的未知參數,

                                式1-7

    計算偏微分算子:

                     式1-8

    只要令式1-8等於0進行似然方程求解就可以了。

    最後我們總結一下最大似然估計的特點:

    ①比其他估計方法簡單,多部分傳統的機器學習算法都採用了該方法進行參數估計;

    ②收斂性,只要訓練樣本集夠大,理論上可以接近無偏估計;

    ③在選擇假設模型時必須非常慎重,若偏差太大會導致估計結果非常差。


------------------------------又是可愛的分割線--------------------------

參考博客:

https://blog.csdn.net/u011508640/article/details/72815981

https://blog.csdn.net/zengxiantao1994/article/details/72787849

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章