likelihood和probability

原文鏈接:https://blog.csdn.net/songyu0120/article/details/85059149

雖然經常在paper和教程中看到“似然(likelihood)”的概念,但是一直都沒有仔細研究似然與概率的區別,今天查了一些資料,有些收穫,在此總結一下。

似然與概率的區別
簡單來講,似然與概率分別是針對不同內容的估計和近似。概率(密度)表達給定θ \thetaθ下樣本隨機向量X=x \textbf{X} = {x}X=x的可能性,而似然表達了給定樣本X=x \textbf{X} = {x}X=x下參數θ=θ1 \theta=\theta_1θ=θ 
1
​    
 (相對於另外的參數取值θ2 \theta_2θ 
2
​    
 )爲真實值的可能性.

換言之, 似然函數的形式是L(θ∣x) L(\theta|x)L(θ∣x),其中"|"代表的是條件概率或者條件分佈,因此似然函數是在"已知"樣本隨機變量X=x \textbf{X}=xX=x的情況下,估計參數空間中的參數θ \thetaθ的值. 因此似然函數是關於參數θ \thetaθ的函數,即給定樣本隨機變量x xx後,估計能夠使X XX的取值成爲x xx的參數θ \thetaθ的可能性; 而概率密度函數的定義形式是f(x∣θ) f(x|\theta)f(x∣θ), 即概率密度函數是在"已知"θ \thetaθ的情況下,去估計樣本隨機變量x xx出現的可能性.

注意上面有一句中需要理清幾個概念:

估計能夠使X XX的取值成爲x xx的參數θ \thetaθ的可能性

統計學中, 樣本隨機變量的出現是基於某個分佈的.例如f(x∣θ) f(x|\theta)f(x∣θ)代表x服從f ff分佈,而f ff的分佈是由參數θ \thetaθ決定的.
通常在概率統計學中X \textbf{X}X代表的是隨機變量,而小寫形式x xx通常代表其具體取值. 假定X XX服從二項分佈(也可以是任何其他分佈), 則可以寫成$X~B(n,p), 而該二項分佈情況下, 6次試驗下x的取值可以是"010011".
而上面第一條中, 其實包含了一個前提假設,就是我們已知X XX服從二項分佈, 這種假設的數學含義是什麼呢? 對, 就是決定該分佈的參數爲θ \thetaθ, 即參數θ \thetaθ刻畫了隨機變量X \textbf{X}X在概率空間中服從什麼分佈. 更具體一點,假如X XX服從二項分佈,那麼其由θ \thetaθ決定的形式爲f(x;n;k∣θ)=P(X=k)=(nk)pk(1−p)n−k f(x;n;k|\theta)=P(\textbf{X}=k)={n \choose k}p^k(1-p)^{n-k}f(x;n;k∣θ)=P(X=k)=( 
k
n
​    
 )p 
k
 (1−p) 
n−k
 . 其中p可以代表二項分佈中"1"出現的概率,即θ \thetaθ的取值, 比如可以取值爲"1/2". 而在似然估計中θ \thetaθ是怎麼得到的呢? 還是以上面x xx的取值"010011"爲例, 可以發現6次試驗中,"1"出現了三次,那麼這種情況下p取值爲"1/2"是可能性最大的,即最接近θ \thetaθ的真實分佈.
似然與概率的聯繫
似然函數可以看做是同一個函數形式下的不同視角.

以函數ab a^ba 
b
 爲例. 該函數包含了兩個變量,a和b. 如果b已知爲2, 那麼函數就是變量a的二次函數,即f(a)=a2 f(a)=a^2f(a)=a 
2
 ; 如果a已知爲2,那麼該函數就是變量b的冪函數, 即f(b) f(b)f(b) = 2^b$.

同理,θ \thetaθ和x xx也是兩個不同的變量,如果x xx的分佈是由已知的θ \thetaθ刻畫的, 要求估計X XX的實際取值, 那麼p(x∣θ) p(x|\theta)p(x∣θ)就是x的概率密度函數; 如果已知隨機變量x xx的取值, 而要估計使X XX取到已知x xx的參數分佈,就是似然函數的目的.

參考知乎上一個形象的例子:

有一個硬幣,它有θ \thetaθ的概率會正面向上,有1−θ 1-\theta1−θ的概率反面向上。θ \thetaθ是存在的,但是你不知道它是多少。

爲了獲得θ \thetaθ的值,你做了一個實驗:將硬幣拋10次,得到了一個正反序列:x=HHTTHTHHHH x=HHTTHTHHHHx=HHTTHTHHHH。無論θ \thetaθ的值是多少,這個序列的概率值爲 θ⋅θ⋅(1−θ)⋅(1−θ)⋅θ⋅(1−θ)⋅θ⋅θ⋅θ⋅θ=θ7(1−θ)3 \theta⋅\theta⋅(1-\theta)⋅(1-\theta)⋅\theta⋅(1-\theta)⋅\theta⋅\theta⋅\theta⋅\theta = \theta^7 (1-\theta)^3θ⋅θ⋅(1−θ)⋅(1−θ)⋅θ⋅(1−θ)⋅θ⋅θ⋅θ⋅θ=θ 
7
 (1−θ) 
3
 . 比如,如果θ \thetaθ值爲0,則得到這個序列的概率值爲0。如果θ \thetaθ值爲1/2,概率值爲1/1024。但是,我們應該得到一個更大的概率值,所以我們嘗試了所有θ可取的值,畫出了下圖:

這個曲線就是θ的似然函數,通過了解在某一假設下,已知數據發生的可能性,來評價哪一個假設更接近θ的真實值。

如圖所示,最有可能的假設是在θ=0.7的時候取到。但是,你無須得出最終的結論θ=0.7。事實上,根據貝葉斯法則,0.7是一個不太可能的取值(如果你知道幾乎所有的硬幣都是均質的,那麼這個實驗並沒有提供足夠的證據來說服你,它是均質的)。但是,0.7卻是最大似然估計的取值。因爲這裏僅僅試驗了一次,得到的樣本太少,所以最終求出的最大似然值偏差較大,如果經過多次試驗,擴充樣本空間,
則最終求得的最大似然估計將接近真實值0.5。

One more thing
說到似然,就很自然的會想到機器學習。

在機器學習中,之所以需要似然函數函數的概念,是因爲我們往往是想要機器根據已有的數據(相當於X \textbf{X}X)學到相應的分佈(即θ \thetaθ),此概念對應training階段, 即在訓練階段, 是根據已有的X XX來估計其真實的數據分佈服從什麼樣的分佈θ \thetaθ.

而我們構建模型的目的是, 在實際中應用. 例如根據已有的有限的人臉圖像和人臉關鍵點的標註, 使機器學習到包含人臉的圖像和其關鍵點的對應關係的分佈; 然後在實際應用中,能夠檢測未在數據集中出現過的人臉圖像的關鍵點. 因此在測試階段, 就是已知參數θ \thetaθ, 來估計該分佈下, X \textbf{X}X應該是什麼.

參考
https://www.zhihu.com/question/54082000

https://www.quora.com/What-is-the-difference-between-probability-and-likelihood-1/answer/Jason-Eisner?share=cbfeda82&srid=zDgIt
————————————————
版權聲明:本文爲CSDN博主「江前雲後」的原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/songyu0120/article/details/85059149

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章