理解貝葉斯優化:先驗概率與後驗概率

前言

貝葉斯估計, 貝葉斯優化, 先驗概率和後驗概率, 配上一堆概率論的東西…成功達到了一種嚇唬人的作用,讓人誤以爲是一種高大上的算法。 本文希望以最簡單通俗的例子, 深入淺出地講述這一貝葉斯體系的算法本質, 來闡述 這並非什麼高深的算法,而是我們生活中與生俱來最簡單的思想。

條件概率

個人認爲, 貝葉斯優化中, 唯一需要的概率公式就是這個:

P(AB)=P(A)×P(BA)=P(B)×P(AB)P(AB) = P(A) \times P(B|A) = P(B) \times P(A|B)

很容易理解: AB同時發生,就是A發生的情況下, B也發生。 或者B發生的情況下, A也發生。 兩種理解分別對應P(AB)P(AB)的兩種表示。

先驗概率和後驗概率

個人認爲, 這種東西,從概念上講是最難理解的, 但是用例子說明就很簡單, 因此, 我舉一個例子:

現在有兩枚硬幣, 硬幣A 與 硬幣B, 硬幣A 擲出去朝上概率爲0.7, 朝下爲0.3。硬幣B朝上概率爲0.4, 朝下爲0.6。現在你從中任選一枚硬幣擲, 已知, 選中硬幣A的概率爲0.8, 選中硬幣B的概率爲0.2 。

選中概率 朝上概率 朝下概率
硬幣A 0.8 0.7 0.3
硬幣B 0.2 0.4 0.6

現在, 你擲出硬幣, 發現硬幣正面朝上, 這時要求判斷: 你選出的硬幣是A還是B?

顯然, 僅從結果來看, A和B都是有可能的。但所謂貝葉斯優化, 就是我們要作出 概率最大的決策。這個例子一目瞭然, 顯然, 硬幣A的可能性遠遠高於B。 下面,通過貝葉斯來分析一下:

根據條件概率的定義, 我們可以用P(A)P(A|硬幣正面朝上)來表示基於目前已發生的硬幣朝上的條件下, 我們選硬幣A的可能性。 同理, P(B)P(B|硬幣正面朝上)來表示選擇硬幣B的可能性。 而貝葉斯優化所要做的,就是判斷兩者的大小關係,選擇其中更大的一個。

那麼, 根據條件概率公式, 我們首先有:

P(A)×P()=P(A)×P(A)P(A|硬幣正面朝上) \times P(硬幣正面朝上)= P(硬幣正面朝上|A) \times P(A)

這裏引出概念:

  • P(A)P(A) 是選擇A的概率, 和結果(硬幣朝上)無關的基於經驗的概率, 被稱爲 先驗概率。 在本例中, 先驗概率就是P(A)=0.8P(A)=0.8P(B)=0.2P(B)=0.2
  • P(A)P(A|硬幣正面朝上) 則被稱爲後驗概率, 即根據目前發生的結果(硬幣朝上)反推真相(選擇了A還是B)的概率。
  • 從上式中就能看出, 後驗概率和先驗概率是相關的。
  • 貝葉斯判定準則, 就是選擇後驗概率最大的情況。 這也最符合我們的邏輯, 根據已觀測到的事實, 反推最優可能造成該事實的原因是什麼。

顯然:
P(A)=P(A)×P(A)P()P(B)=P(B)×P(B)P() P(A|硬幣正面朝上) = \frac{P(硬幣正面朝上|A) \times P(A) }{ P(硬幣正面朝上)}\\ P(B|硬幣正面朝上) = \frac{P(硬幣正面朝上|B) \times P(B) }{ P(硬幣正面朝上)}
由於分母相同(事實上貝葉斯優化中都是如此), 我們只需要比較分母的大小:

  • 根據例子的數據,P(A)=0.70.8=0.56P(A|硬幣正面朝上) =0.7 * 0.8 = 0.56 ;
  • P(B)=0.40.2=0.08P(B|硬幣正面朝上) =0.4 * 0.2 = 0.08;
    差距十分懸殊, 毫無疑問, 基於 硬幣朝上這一觀測現象結果, 選擇A的概率是更大的。這個例子是小學初中的水平, 但是這就是貝葉斯優化的實質: 選擇後驗概率更大的那一個
  • P(A)P(硬幣正面朝上|A) 被稱爲類條件概率。

在機器學習中, 先驗概率和類條件概率很容易由訓練集得到。 比如總共有10000枚硬幣(10000個樣本), 其中8000枚是A硬幣, 2000枚是B硬幣 (標籤)。 那麼我們認爲先驗概率就是 P(A)=0.8P(A)=0.8, P(B)=0.2P(B)=0.2

結語

就如同著名的西瓜分類例子之中: 我們在衆多的西瓜(樣本)裏, 發現好瓜的條紋清晰的概率遠遠大於壞瓜, 那顯然, 當我們又看到一個新的條理清晰的瓜時,我們有理由判定它大概率是好瓜。 這就是貝葉斯分類的實質, 也是我們生活中最符合常理的邏輯。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章