統計推斷:參數估計(極大似然估計,MLE)

以前總是不能很直覺地理解極大似然估計(MLE),現在把自己作爲一個初學者,梳理一下。

見過的很多書、文章,甚至老師在教學的時候,兩步,定義(這叫似然函數,記住) + 定理(找參數,使似然函數達到最大,就是MLE估計的參數),連“似然”是個啥意思都不解釋,就結束了。然後在求極值點上面苦下功夫。這麼教書,都在幹嘛呢…學個毛兒啊。

 

統計推斷,感覺像是在堅持一種信念。而這種信念,似乎就是,大概率事件比小概率事件,更容易發生。

引例

例1. 一個箱子裏有10個球=9個白球+1個黑球。只讓你摸一次,要你猜,你會摸出白球還是黑球呢。

這還用猜嗎?肯定是白球啊。肯定本來的意思是100%,其實在這裏,僅僅表示你的信念,而已。

 

例2. 兩個箱子,分別裝有10個球。A箱子:9白+1黑。B箱:1白+9黑。現在有個人從其中一個箱子裏,摸出了一個白球。要你猜,這個人是從A箱子摸的球,還是從B箱子裏摸的球。

同樣,這還用猜嗎?肯定是從A箱子裏摸出的球啊。

 

綜合上面兩個例子,歸納出一種想法:從已經發生的事件出發,去推斷、估計發生導致發生這個事件的一些前置條件。比如,是在什麼情況下,最有可能發生這一事件。例1中,如果你猜摸出一個黑球,也沒錯,畢竟還有10%的正確率呢。但人應該不是傻子,有90%正確率的答案,幹嘛不選…。例2中,如果你猜是從B箱子裏摸出的球,也沒錯。只是如果試驗者是從A箱子裏摸球,會對出現“摸出一個白球”這一現象,更加有利

 

參數估計:極大似然估計,MLE(maximum likelyhood estimation)

這個名字的意思,極大:最大;似然:相似,像、likelyhood,可能性。

統計學和概率論有點相反的意思。概率論是已知分佈計算概率,統計是已知概率(至少說頻率,或者說觀察值)去猜分佈。

如果已知X服從某一分佈(如果不知道,你就假設一個,總比沒有強),那麼這個分佈一般是由一些參數決定的。比如二項分佈的p,比如正態分佈的均值u和標準差sigma,比如泊松分佈的lambda。

那麼,根據這種信念(與小概率事件相比,認爲大概率事件更容易發生。一次試驗中,發生的是大概率事件,而不是小概率事件),就可以估計出參數的值,讓發生的事件所對應的概率最大。這就是MLE。

 

正兒八經的MLE

1. 離散情形 

一個盒子裏有白球+黑球若干個。白球的比例爲p(未知的參數),黑球的比例爲1-p。有放回地摸球,摸了100次,出現了70次白球,出現了30次黑球,把這個事件記爲事件A。現在叫你估計這個p大概是多少。

已經發生的事件,觀察值,當然已知。70次白球,30次黑球。那拍腦袋(PND模型)就知道p=0.7。這個PND,靠譜嗎?

用MLE的信念來驗證。發生這件事情A的概率是多少呢? P(A)= p^70 + (1-p)^30。可以發現,P(A)會隨着p的變化而變化,P(A)是p的一個函數,而p是等待我們估計的參數。

按照MLE的想法,事件A已經發生,那我們應該按照信念,找一個參數p,使得最有利於事件A發生,即找一個p,讓A最容易發生。不然PND猜一個p=0.1,也不符合直覺啊。

假如說,有兩個人猜p的值。第1個人說,p=0,第2個人說p=0.1。那你贊同哪個人呢?肯定贊同第2個人啊。因爲,相比於第1個人的結果,第2個人估計的p更可能讓事件A發生。不過,第2個人的結果真的就很好嗎?有沒有更好的呢?

於是你就一直調整p的值,直到P(A)達到最大值,此時的p就是MLE估計的值。反正p介於[0, 1],你就暴利、枚舉去測試咯…

有點學問的人,當然要對P(A)= p^70 + (1-p)^30這個式子做文章了。記P(A)= p^70 + (1-p)^30爲L(p)。

p_est = argmax{L(p)}。求最大值,又可導,求個極值、端點值,調出使得L(p)最大的p就好了。不信你求個導計算一下,使得P(A)取得最大的p,還正好就是0.7。和一開始拍腦袋猜的一樣。不過注意了,都是猜,MLE也是猜,拍腦袋也是猜。這就是神奇的統計。猜了以後,想方設法,自圓其說…。

這就是離散形式的MLE。

 

2. 連續情形

一個正態分佈隨機數發生器,產生了一堆數字(比如,10.5, 35.5, 40.8, 40.2,42.7, ……)。叫你估計均值u和sigma。

也是,找一個u、找一個sigma,讓發生這串數字的可能性最大,最可能出現,那不就是極大似然了嗎?

只是說,連續情形下,概率不是概率密度這麼簡單。連續隨機變量取單點值的概率爲0,定積分所決定的,所以要取很小的一個區間eps。所謂的出現xi的概率差不多是 f(xi; u, sigma) * dx

兩點需要非常注意:(1)概率密度的量綱是 1/[dx] , 而不是 [1]。概率的量綱是 [1]。用概率密度來表示密度,差不多就是 f(x) * dx (想想幾何概型的含義)。那在計算最大值點的時候,把dx省去了而已。

(2)概率密度函數f的括號裏面,我打的是分號,並不是一豎“|”。| 的意思是條件概率,而這個似乎不應該是條件概率,只是在u, sigma這組參數下的f。我如果不寫u, sigma,也沒關係。寫不寫都無所謂,寫上只是說明了,f是由u和sigma兩個未知的固定參數(這不是隨機變量,只是不變參數,僅僅是不知道它們的值而已)決定的。而條件概率就不同了,P(A|B)和P(A)明顯是兩碼事,至少看起來B是個隨機事件吧。

所以這個事件 P(出現了觀察到的這一堆數字) = P(x = x1, x = x2, x = x3, ...; u , sigma)。如果是獨立同分布,那還可以拆成概率的乘積。在計算時,省掉x,那就是一堆概率密度函數的乘積,參數是未知的。找出u和sigma,讓這個乘積最大,這就是MLE。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章