似然函數/概率密度函數/先驗概率/後驗概率/貝葉斯公式

一、先驗概率、後驗概率、貝葉斯公式、似然函數

在機器學習中,這些概念總會涉及到,但從來沒有真正理解透徹他們之間的聯繫。下面打算好好從頭捋一下這些概念,備忘。

1、先驗概率

先驗概率僅僅依賴於主觀上的經驗估計,也就是事先根據已有的知識的推斷,先驗概率就是沒有經過實驗驗證的概率,根據已知進行的主觀臆測。

如拋一枚硬幣,在拋之前,主觀推斷P(正面朝上) = 0.5。

2、後驗概率

後驗概率是指在得到“結果”的信息後重新修正的概率,如貝葉斯公式中的。是“執果尋因”問題中的”果”。先驗概率與後驗概率有不可分割的聯繫,後驗概率的計算要以先驗概率爲基礎。解釋下來就是,在已知果(B)的前提下,得到重新修正的因(A)的概率P(A|B),稱爲A的後驗概率,也即條件概率。後驗概率可以通過貝葉斯公式求解

3、貝葉斯公式

貝葉斯公式,用來描述兩個條件概率(後驗概率)之間的關係,比如 P(A|B) 和 P(B|A)。按照乘法法則:

P(A∩B) = P(A)*P(B|A)=P(B)*P(A|B)

如上公式也可變形爲:

P(A|B)=P(A)P(B|A)/P(B)      P(B)爲標準化常量

貝葉斯法則表述如下: 
一般公式 
這裏寫圖片描述 
其中 
A1,,,,,,An爲完備事件組,即 
這裏寫圖片描述

舉一個簡單的例子:一口袋裏有3只紅球、2只白球,採用不放回方式摸取,求: 
⑴ 第一次摸到紅球(記作A)的概率; 
⑵ 第二次摸到紅球(記作B)的概率; 
⑶ 已知第二次摸到了紅球,求第一次摸到的是紅球的概率。  
 
解: 
⑴ P(A)=3/5,這就是A的先驗概率; 
⑵ P(B)=P(B|A)P(A)+P(B|A逆)P(A逆)=3/5 此稱爲準化常量,A與A逆稱爲完備事件組 
⑶ P(A|B)=P(A)P(B|A)/P(B)=1/2,這就是A的後驗概率。

 
 

4、似然函數

1)概念

在數理統計學中,似然函數是一種關於統計模型中的參數的函數,表示模型參數中的似然性。 
似然函數在統計推斷中有重大作用,如在最大似然估計和費雪信息之中的應用等等。“似然性”與“或然性”或“概率”意思相近,都是指某種事件發生的可能性,但是在統計學中,“似然性”和“或然性”或“概率”又有明確的區分。 
概率用於在已知一些參數的情況下,預測接下來的觀測所得到的結果,而 
似然性 則是用於在已知某些觀測所得到的結果時,對有關事物的性質的參數進行估計。 

舉例如下: 
對於“一枚正反對稱的硬幣上拋十次”這種事件,我們可以問硬幣落地時十次都是正面向上的“概率”是多少; 
而對於“一枚硬幣上拋十次,落地都是正面向上”這種事件,我們則可以問,這枚硬幣正反面對稱(也就是正反面概率均爲0.5的概率)的“似然”程度是多少。

2)定義

給定輸出x時,關於參數θ的似然函數L(θ|x)(在數值上)等於給定參數θ後變量X=x的概率:

L(θ|x)=P(X=x|θ).

公式解釋如下:對參數θ的似然函數求值,(在數值上)等於觀測結果X在給定參數θ下的條件概率,也即X的後驗概率。一般似然函數的值越大表明在結果X=x下,此參數θ越合理。 
因此形式上,似然函數也是一種條件概率函數,但我們關注的變量改變了,關注的是A取值爲參數θ的似然值:

θ <---> P(B | A = θ)

因此說貝葉斯公式P(A|B)=P(B|A)P(A)/P(B)在形式上也可以表述爲:  
A的後驗概率 = (A的似然度 * A的先驗概率)/標準化常量  
也就是說,後驗概率與先驗概率和似然度的乘積成正比。 
注意到這裏並不要求似然函數滿足歸一性:∑P(B | A = θ)= 1 
一個似然函數乘以一個正的常數之後仍然是似然函數。對所有α > 0,都可以有似然函數:

L(θ|x)=αP(X=x|θ).

3)舉例

舉例如下:考慮投擲一枚硬幣的實驗。通常來說,已知投出的硬幣正面朝上和反面朝上的概率各自是pH= 0.5,便可以知道投擲若干次後出現各種結果的可能性。比如說,投兩次都是正面朝上的概率是0.25。用條件概率表示,就是:

P(HH | pH = 0.5) = 0.5^2 = 0.25

其中H表示正面朝上。

在統計學中,我們關心的是在已知一系列投擲的結果時,關於硬幣投擲時正面朝上的可能性的信息。我們可以建立一個統計模型:假設硬幣投出時會有pH的概率正面朝上,而有1 −pH的概率反面朝上。這時,條件概率可以改寫成似然函數:

L(pH = 0.5 | HH) = P(HH | pH = 0.5) = 0.25

也就是說,對於取定的似然函數,在觀測到兩次投擲都是正面朝上時,pH= 0.5的似然性(可能性)是0.25(這並不表示當觀測到兩次正面朝上時pH= 0.5的概率是0.25)。 
如果考慮pH= 0.6,那麼似然函數的值也會改變。

L(pH = 0.6 | HH) = P(HH | pH = 0.6) = 0.36

注意到似然函數的值變大了。這說明,如果參數pH的取值變成0.6的話,結果觀測到連續兩次正面朝上的概率要比假設pH= 0.5時更大。也就是說,參數pH取成0.6 要比取成0.5 更有說服力,更爲“合理”。總之,似然函數的重要性不是它的具體取值,而是當參數變化時函數到底變小還是變大。對同一個似然函數,如果存在一個參數值,使得它的函數值達到最大的話,那麼這個值就是最爲“合理”的參數值。 
在這個例子中,似然函數實際上等於:

L(pH = θ | HH) = P(HH | pH = θ) =  θ^2

如果取pH= 1,那麼似然函數達到最大值1。也就是說,當連續觀測到兩次正面朝上時,假設硬幣投擲時正面朝上的概率爲1是最合理的。 
類似地,如果觀測到的是三次投擲硬幣,頭兩次正面朝上,第三次反面朝上,那麼似然函數將會是: 
 
L(pH = θ | HHT) = P(HHT | pH = θ) = θ^2(1- θ),其中T表示反面朝上,0 <= pH <= 1  
 
這時候,似然函數的最大值將會在pH = 2/3的時候取到。也就是說,當觀測到三次投擲中前兩次正面朝上而後一次反面朝上時,估計硬幣投擲時正面朝上的概率pH = 2/3是最合理的。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章