該系列博客旨在對概率論和統計學的相關概念和應用進行一個整體的梳理,既記錄自己的學習過程,也可以爲大家提供一個參考。
這篇博客主要講解概率論和統計學中經常涉及到的,不是很好理解的一個概念——似然(Likelihood)及似然函數(Likelihood Function),同時講解了有關最大似然估計(Maximum Likelihood Estimation, MLE)的概念。
1、似然和概率的關係
通過前面的兩篇博客:和,我們大概已經知道了概率學的基礎概念,也知道了概率論主要研究的對象之一就是隨機變量的概率分佈。那既然已經有了概率這個非常直觀易懂的概念,爲什麼還有一個叫做似然的概念呢?
其實在英語語境中,似然(Likelihood)和概率(Probability)是同義詞,都是表示對機會(chance)或可能性的描述。但是在數學中,這兩者雖然有千絲萬縷的聯繫,但卻描述不同的對象。爲了理解這兩者的不同,我們需要從隨機變量的概率分佈說起。
一般來說,一個隨機變量的概率分佈函數都依賴一個或多個參數,即不同參數取值就會得到不同的分佈函數,例如伯努利分佈也就是兩點分佈的參數就是一次試驗成功的概率p,如果我們知道這個參數p,我們就能知道其概率分佈函數是,而正態分佈的參數就是均值和方差。知道了這些參數,就相當於知道了具體的概率分佈函數,也就能夠完全確定一個隨機變量在不同取值時的概率值。
但在實際操作中,我們並不一定能夠事先獲取一個隨機變量概率分佈函數中的具體參數值,這個時候我們可以通過大量試驗收集樣本數據,統計樣本結果,來推測參數取值的可能性,此時這個可能性大小也就是似然值,其實這個推測參數取值最大可能性的過程也就是後面我們要講解的最大似然估計。
講到這裏你可能有點暈,我舉個簡單的例子:我們知道獨立重複拋硬幣的過程,正面朝上的次數服從一個二項分佈,假設分佈參數的參數爲p,即認爲每次拋硬幣正面朝上的概率是p,則拋了n次之後,正面朝上次數爲x的概率是:
這就是在已經分佈參數情況下對隨機變量的概率值的求解,注意公式中x和p中間的分號表示的是p是該分佈函數參數。
但如果我們事先並不知道這個二項分佈的參數p的具體取值,我們連續拋了n次,其中正面朝上的次數爲x,則我們假設在這樣的試驗結果下分佈參數的似然值爲,即似然描述分佈函數取某個參數的可能性大小。
所以概率是隨機變量的概率,似然是概率分佈函數參數的似然。 請細細體會這句話。
2、似然函數
似然函數(likelihood function) 是數理統計學中非常重要的概念。它是一種關於統計模型中的參數的函數,表示模型參數中的似然性。似然函數在統計推斷中有重大作用,“似然性”與“或然性”或“概率”意思相近,都是指某種事件發生的可能性,但是在統計中,“似然性”和“或然性”或“概率”又有明確的區分。
概率用於在已知一些參數的情況下,預測接下來的觀測所得到的結果,而似然性則是用於在已知某些觀測所得到的結果時,對有關事物的性質的參數進行估計。
從代數上,對於一次觀測隨機變量的取值來看,似然函數與隨機變量的分佈取值是相等的:
但表達的含義卻不同,似然函數是參數的函數,而不是隨機變量的取值函數。
這個等式表示的是對於事件發生的兩種角度的看法。其實等式兩邊都是表示的這個事件發生的概率或者說可能性。在給定一個樣本x後,我們去想這個樣本出現的可能性到底是多大。統計學的觀點始終是認爲樣本的出現是基於一個分佈的。那麼我們去假設這個分佈爲f,裏面有參數,對於不同的,樣本的分佈不一樣。表示的就是在給定參數theta的情況下,x出現的可能性多大。表示的是在給定樣本x的時候,哪個參數使得x出現的可能性多大。所以其實這個等式要表示的核心意思都是在給一個和一個樣本x的時候,整個事件發生的可能性多大。
其實,上式中的右邊其實更爲準確的寫法應該是:
因爲在概率論中,豎線表示條件概率或者條件分佈,而此處的theta只是分佈的參數,應該用分號隔開,右邊則表示在分佈取得參數爲theta時,隨機變量取值爲x的概率。
一般而言,我們會從總體中抽取樣本來推導似然值,而不是一次觀測。此時假設發生n次獨立事件,從這n次發生的結果中我們可以得到似然函數爲:
3、最大似然估計
MLE常用來做參數估計,所謂最大似然估計,也就是通過假設隨機變量所服從的分佈,根據試驗結果,得到似然函數(是分佈參數的函數),並求出似然函數取值最大時的參數取值,從而得到數據服從的分佈的過程。
求最大似然估計的問題,其實就是求似然函數的極值問題。
具體的例子可以參考:
https://www.jianshu.com/p/f1d3906e4a3e
https://newonlinecourses.science.psu.edu/stat504/node/28/