貝葉斯理論

1.貝葉斯法則

        機器學習的任務:在給定訓練數據D時,確定假設空間H中的最佳假設。

        最佳假設:一種方法是把它定義爲在給定數據D以及H中不同假設的先驗概率的有關知識下的最可能假設。貝葉斯理論提供了一種計算假設概率的方法,基於假設的先驗概率、給定假設下觀察到不同數據的概率以及觀察到的數據本身。

2.先驗概率和後驗概率

        用P(h)表示在沒有訓練數據前假設h擁有的初始概率。P(h)被稱爲h的先驗概率。先驗概率反映了關於h是一正確假設的機會的背景知識如果沒有這一先驗知識,可以簡單地將每一候選假設賦予相同的先驗概率。類似地,P(D)表示訓練數據D的先驗概率,P(D|h)表示假設h成立時D的概率。機器學習中,我們關心的是P(h|D),即給定D時h的成立的概率,稱爲h的後驗概率。

3.貝葉斯公式

        貝葉斯公式提供了從先驗概率P(h)、P(D)和P(D|h)計算後驗概率P(h|D)的方法

                                               p(h|D)=P(D|H)*P(H)/P(D)

        P(h|D)隨着P(h)和P(D|h)的增長而增長,隨着P(D)的增長而減少,即如果D獨立於h時被觀察到的可能性越大,那麼D對h的支持度越小。

4.極大後驗假設

        學習器在候選假設集合H中尋找給定數據D時可能性最大的假設h,h被稱爲極大後驗假設(MAP)確定MAP的方法是用貝葉斯公式計算每個候選假設的後驗概率,計算式如下:

         h_map=argmax P(h|D)=argmax (P(D|h)*P(h))/P(D)=argmax P(D|h)*p(h) (h屬於集合H)

最後一步,去掉了P(D),因爲它是不依賴於h的常量。

5.極大似然假設

        在某些情況下,可假定H中每個假設有相同的先驗概率,這樣式子可以進一步簡化,只需考慮P(D|h)來尋找極大可能假設。

        h_ml = argmax p(D|h) h屬於集合H

        P(D|h)常被稱爲給定h時數據D的似然度,而使P(D|h)最大的假設被稱爲極大似然假設。

6.舉例

        考慮一個醫療診斷問題,有兩種可能的假設:(1)病人有癌症。(2)病人無癌症。樣本數據來自某化驗測試,它也有兩種可能的結果:陽性和陰性。假設我們已經有先驗知識:在所有人口中只有0.008的人患病。此外,化驗測試對有病的患者有98%的可能返回陽性結果,對無病患者有97%的可能返回陰性結果。

        上面的數據可以用以下概率式子表示:

        P(cancer)=0.008,P(無cancer)=0.992

        P(陽性|cancer)=0.98,P(陰性|cancer)=0.02

        P(陽性|無cancer)=0.03,P(陰性|無cancer)=0.97

        假設現在有一個新病人,化驗測試返回陽性,是否將病人斷定爲有癌症呢?我們可以來計算極大後驗假設:

        P(陽性|cancer)p(cancer)=0.98*0.008 = 0.0078

        P(陽性|無cancer)*p(無cancer)=0.03*0.992 = 0.0298

        因此,應該判斷爲無癌症。

        貝葉斯推理的結果很大程度上依賴於先驗概率,另外不是完全接受或拒絕假設,只是在觀察到較多的數據後增大或減小了假設的可能性。


       貝葉斯分類具有如下特點:

         (1)貝葉斯分類並不把一個對象絕對地指派給某一類,而是通過計算得出屬於某一類的概率,具有最大概率的類便是該對象所屬的類;

        (2)一般情況下在貝葉斯分類中所有的屬性都潛在地起作用,即並不是一個或幾個屬性決定分類,而是所有的屬性都參與分類;

        (3) 貝葉斯分類對象的屬性可以是離散的、連續的,也可以是混合的。

        貝葉斯定理給出了最小化誤差的最優解決方法,可用於分類和預測。理論上,它看起來很完美,但在實際中,它並不能直接利用,它需要知道證據的確切分佈概率,而實際上我們並不能確切的給出證據的分佈概率。因此我們在很多分類方法中都會作出某種假設以逼近貝葉斯定理的要求。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章