貝葉斯公式 - 對似然函數的理解

定理定義

貝葉斯公式(發表於1763年)爲:

這就是著名的“貝葉斯定理”,一些文獻中把P(B[1])、P(B[2])稱爲基礎概率,P(A│B[1])爲擊中率,P(A│B[2])爲誤報率。

應用例子

吸毒者檢測

貝葉斯定理在檢測吸毒者時很有用。假設一個常規的檢測結果的敏感度與可靠度均爲99%,也就是說,當被檢者吸毒時,每次檢測呈陽性(+)的概率爲99%。而被檢者不吸毒時,每次檢測呈陰性(-)的概率爲99%。從檢測結果的概率來看,檢測結果是比較準確的,但是貝葉斯定理卻可以揭示一個潛在的問題。假設某公司將對其全體僱員進行一次鴉片吸食情況的檢測,已知0.5%的僱員吸毒。我們想知道,每位醫學檢測呈陽性的僱員吸毒的概率有多高?令“D”爲僱員吸毒事件,“N”爲僱員不吸毒事件,“+”爲檢測呈陽性事件。可得

  • P(D)代表僱員吸毒的概率,不考慮其他情況,該值爲0.005。因爲公司的預先統計表明該公司的僱員中有0.5%的人吸食毒品,所以這個值就是D的先驗概率。

  • P(N)代表僱員不吸毒的概率,顯然,該值爲0.995,也就是1-P(D)。

  • P(+|D)代表吸毒者陽性檢出率,這是一個條件概率,由於陽性檢測準確性是99%,因此該值爲0.99。

  • P(+|N)代表不吸毒者陽性檢出率,也就是出錯檢測的概率,該值爲0.01,因爲對於不吸毒者,其檢測爲陰性的概率爲99%,因此,其被誤檢測成陽性的概率爲1-99%。

  • P(+)代表不考慮其他因素的影響的陽性檢出率。該值爲0.0149或者1.49%。我們可以通過全概率公式計算得到:此概率 = 吸毒者陽性檢出率(0.5% x 99% = 0.00495)+ 不吸毒者陽性檢出率(99.5% x 1% = 0.00995)。P(+)=0.0149是檢測呈陽性的先驗概率。用數學公式描述爲:

根據上述描述,我們可以計算某人檢測呈陽性時確實吸毒的條件概率P(D|+):

P(D|+) = P(+|D)P(D)/(P(+|D)P(D)+P(+|N)P(N))=0.99 *0.005/0.0149=0.332215

儘管我們的檢測結果可靠性很高,但是隻能得出如下結論:如果某人檢測呈陽性,那麼此人是吸毒的概率只有大 約33%,也就是說此人不吸毒的可能性比較大。我們測試的條件(本例中指D,僱員吸毒)越難發生,發生誤判的可能性越大。

但如果讓此人再次複檢(相當於P(D)=33.2215%,爲吸毒者概率,替換了原先的0.5%),再使用貝葉斯定理計算,將會得到此人吸毒的概率爲98.01%。但這還不是貝葉斯定理最強的地方,如果讓此人再次複檢,再重複使用貝葉斯定理計算,會得到此人吸毒的概率爲99.8%(99.9794951%)已經超過了檢測的可靠度。

求最大似然估計量的一般步驟:
        (1)寫出似然函數;
        (2)對似然函數取對數,並整理;
        (3)求導數;
        (4)解似然方程。
        最大似然估計的特點:
        1.比其他估計方法更加簡單;
        2.收斂性:無偏或者漸近無偏,當樣本數目增加時,收斂性質會更好;

        3.如果假設的類條件概率模型正確,則通常能獲得較好的結果。但如果假設模型出現偏差,將導致非常差的估計結果。

 

轉自:https://www.cnblogs.com/zhsuiy/p/4822020.html

一直對貝葉斯里面的似然函數(likelihood function),先驗概率(prior),後驗概率(posterior)理解得不是很好,今天彷彿有了新的理解,記錄一下。

看論文的時候讀到這樣一句話:

原來只關注公式,所以一帶而過。再重新看這個公式前的描述,細思極恐。

the likelihood function of the parameters θ = {w,α,β} given the observations D can be factored as..


兩個疑問:likelihood function爲什麼會寫成條件概率的形式?given的明明是D,爲什麼到後面的公式裏,卻變成了given θ 呢?

百度了一下,先貼上wikipedia的解釋:

https://zh.wikipedia.org/wiki/%E4%BC%BC%E7%84%B6%E5%87%BD%E6%95%B0

下面整理一下自己的理解,借用wikipedia裏面硬幣的例子。

常說的概率是指給定參數後,預測即將發生的事件的可能性。拿硬幣這個例子來說,我們已知一枚均勻硬幣的正反面概率分別是0.5,要預測拋兩次硬幣,硬幣都朝上的概率:

H代表Head,表示頭朝上

p(HH | pH = 0.5) = 0.5*0.5 = 0.25.

這種寫法其實有點誤導,後面的這個p其實是作爲參數存在的,而不是一個隨機變量,因此不能算作是條件概率,更靠譜的寫法應該是 p(HH;p=0.5)。

而似然概率正好與這個過程相反,我們關注的量不再是事件的發生概率,而是已知發生了某些事件,我們希望知道參數應該是多少。

現在我們已經拋了兩次硬幣,並且知道了結果是兩次頭朝上,這時候,我希望知道這枚硬幣拋出去正面朝上的概率爲0.5的概率是多少?正面朝上的概率爲0.8的概率是多少?

如果我們希望知道正面朝上概率爲0.5的概率,這個東西就叫做似然函數,可以說成是對某一個參數的猜想(p=0.5)的概率,這樣表示成(條件)概率就是

L(pH=0.5|HH) = P(HH|pH=0.5) = (另一種寫法)P(HH;pH=0.5).

爲什麼可以寫成這樣?我覺得可以這樣來想:

似然函數本身也是一種概率,我們可以把L(pH=0.5|HH)寫成P(pH=0.5|HH); 而根據貝葉斯公式,P(pH=0.5|HH) = P(pH=0.5,HH)/P(HH);既然HH是已經發生的事件,理所當然P(HH) = 1,所以:

P(pH=0.5|HH)  = P(pH=0.5,HH) = P(HH;pH=0.5).

右邊的這個計算我們很熟悉了,就是已知頭朝上概率爲0.5,求拋兩次都是H的概率,即0.5*0.5=0.25。

所以,我們可以safely得到:

L(pH=0.5|HH) = P(HH|pH=0.5) = 0.25.

這個0.25的意思是,在已知拋出兩個正面的情況下,pH = 0.5的概率等於0.25。

再算一下

L(pH=0.6|HH) = P(HH|pH=0.6) = 0.36.

把pH從0~1的取值所得到的似然函數的曲線畫出來得到這樣一張圖:

(來自wikipedia)

可以發現,pH = 1的概率是最大的。

即L(pH = 1|HH) = 1。

那麼最大似然概率的問題也就好理解了。

最大似然概率,就是在已知觀測的數據的前提下,找到使得似然概率最大的參數值。

這就不難理解,在data mining領域,許多求參數的方法最終都歸結爲最大化似然概率的問題。

回到這個硬幣的例子上來,在觀測到HH的情況下,pH = 1是最合理的(卻未必符合真實情況,因爲數據量太少的緣故)。

先理解這麼多。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章