貝葉斯法則,先驗概率,後驗概率,極大後驗估計,極大似然估計

本系列文章爲原創，轉載請註明出處。
作者：Dongdong Bai
郵箱： [email protected]

若您覺得本博文對您有幫助，請您爲我點贊並關注我，以鼓勵我寫出更優秀的博文。謝謝！

一、基本概念

1、先驗概率和後驗概率

P (θ | X) = \frac{P (X | θ) P (θ)}{P (X)}

其中， $θ$ 表示模型中的未知參數， $X$ 表示樣本。這裏有三個重要的概念：先驗分佈、似然函數，以及後驗分佈。

$P (θ)$ 是先驗分佈，表示在觀察樣本之前，按照經驗認爲 $θ$ 符合某種概率分佈。比如說在拋硬幣之前，我們認爲正反兩面出現的概率各爲1/2。
$P (X | θ)$ 是似然函數，表示在給定模型參數 $θ$ 的條件下，樣本數據 $X$ 服從這一概率模型的相似程度。
$P (θ | X)$ 是後驗分佈，表示在觀察一系列樣本數據 $X$ 後，模型參數 $θ$ 服從的概率分佈。即，對先驗分佈進行了修正，更接近真實情況。
另外，因爲 $X$ 是樣本，所以 $P (X)$ 是一個確定的值。

顯然它們之間的關係可以通過貝葉斯公式進行連接：

後 驗 分 布 = \frac{(似 然 函 數 * 先 驗 分 布)}{P (X)}

2、共軛（先驗）分佈

如果先驗分佈和似然函數可以使得先驗分佈和後驗分佈是相同的類型（比如都是指數分佈，或都是高斯分佈），那麼就稱先驗分佈與似然函數是共軛（先驗）分佈。

之所以採用共軛先驗分佈的原因是可以使得先驗分佈和後驗分佈具有相同形式，這樣一方面合符人的直觀（它們應該是相同形式的）另外一方面是可以形成一個先驗鏈，即現在的後驗分佈可以作爲下一次計算的先驗分佈，如果形式相同，就可以形成一個鏈條。

二、機器學習中的應用

1、貝葉斯法則

機器學習的任務：根據給定的訓練數據集 $D$ ，在假說集 $H$ 中的選出一個最佳假說（hypothesis）作爲最終的模型。

最佳假說：是在給定數據集 $D$ 和假說集 $H$ 中每個假說 $h$ 的先驗概率的情況下，最可能（概率 $P (h | D)$ 最大）的一個假說。貝葉斯理論提供了一種計算假說 $P (h | D)$ 的方法：已知各個假說 $h$ 的先驗概率 $P (h)$ ，以及在假說下 $h$ 觀察到數據集 $D$ 的概率 $P (D | h)$ （似然函數），和數據集本身發生的概率 $P (D)$ ，則各個假說 $h$ 的後驗概率爲：

P (h | D) = \frac{P (D | h) P (h)}{P (D)}

2、先驗概率和後驗概率

用 $P (h)$ 表示在沒有訓練數據前假設h擁有的初始概率。 $P (h)$ 被稱爲 $h$ 的先驗概率。先驗概率反映了關於 $h$ 是一個正確假說機會（概率）的背景知識，如果沒有這一先驗知識，可以簡單地將每一候選假說賦予相同的先驗概率。類似地， $P (D)$ 表示訓練數據集 $D$ 的先驗概率， $P (D | h)$ 表示某個假說 $h$ 成立時 $D$ 發生的概率，稱爲似然函數。機器學習中，我們關心的是 $P (h | D)$ ，即給定 $D$ 時 $h$ 的成立的概率，稱爲 $h$ 的後驗概率。

3、貝葉斯公式

貝葉斯公式提供了從先驗概率 $P (h)$ 、似然函數 $P (D | h)$ 和 $P (D)$ 以及計算後驗概率 $P (h | D)$ 的方法:

P (h | D) = \frac{P (D | h) P (h)}{P (D)}

$P (h | D)$ 隨着 $P (h)$ 和 $P (D | h)$ 的增長而增長，隨着 $P (D)$ 的增長而減少，即如果 $D$ 獨立於 $h$ 時被觀察到的可能性越大，那麼 $D$ 對 $h$ 的支持度越小。

4、極大後驗估計（Maximize a Posterior，MAP）

學習器是在候選假說集 $H$ 中尋找給定數據集 $D$ 時可能性最大的假說 $h$ ，也即是 $P (h | D)$ 最大的假說。獲取最大假說的方法是通過極大後驗估計（MAP）來獲取的。極大後驗估計是用貝葉斯公式計算每個候選假說 $h$ 的後驗概率，並從中挑出使 $P (h | D)$ 最大的假說 $h$ ，計算式如下:

h_{M A P} = a r g m a x (P (h | D)) = a r g m a x (\frac{P (D | h) P (h)}{P (D)}) = a r g m a x (P (D | h) P (h)) (假 說 h 是 集 合 H 中 的 元 素)

最後一步，去掉了 $P (D)$ ，因爲它是不依賴於 $h$ 的常量。

5、極大似然估計（Maximize Likelihood Estimation, MLE）

在某些情況下，可假定 $H$ 中每個假說有相同的先驗概率，這樣式子可以進一步簡化，只最大化似然函數 $P (D | h)$ 即可，此時就變成了極大似然估計（MLE）：

h_{M L E} = a r g m a x (P (D | h)) (假 說 h 是 集 合 H 中 的 元 素)

$P (D | h)$ 常被稱爲給定h時數據D的似然度，而使 $P (D | h)$ 最大的假設被稱爲極大似然假設。

極大似然估計在有些教科書上表示爲 $P （ x_{1} ， x_{2} ， x_{3} ， . . . ， x_{n}; θ ）$ ，其中 $θ$ 爲隨機變量 $X$ 所滿足的分佈中待估計的參數， $x_{i}$ 爲滿足隨機變量 $X$ 分佈的一個樣本，且樣本之間是獨立同分布的（iid）。

實際上 $P （ x_{1} ， x_{2} ， x_{3} ， . . . ， x_{n}; θ ）$ 就是一個條件概率 $P （ x_{1} ， x_{2} ， x_{3} ， . . . ， x_{n} | θ ）$ ，即在參數取值爲 $θ$ 的條件下，樣本組 $（ x_{1} ， x_{2} ， x_{3} ， . . . ， x_{n} ）$ 發生的概率。極大似然估計的思想就是既然這組樣本已經發生，那麼存在即爲合理，那麼使得 $P （ x_{1} ， x_{2} ， x_{3} ， . . . ， x_{n} ； θ ）$ 最大值時的 $θ$ 的取值應爲最合理的結果。

6、舉例

考慮一個醫療診斷問題，有兩種可能的假設：（1）病人有癌症。（2）病人無癌症。樣本數據來自某化驗測試，它也有兩種可能的結果：陽性和陰性。假設我們已經有先驗知識：在所有人口中只有0.008的人患病。此外，化驗測試對有病的患者有98%的可能返回陽性結果，對無病患者有97%的可能返回陰性結果。

上面的數據可以用以下概率式子表示：

$P (c a n c e r) = 0.008$ ， $P (无 c a n c e r) = 0.992$
$P (阳性 | c a n c e r) = 0.98$ ， $P (阴性 | c a n c e r) = 0.02$
$P (阳性 | 无 c a n c e r) = 0.03$ ， $P (阴性 | 无 c a n c e r) = 0.97$

假設現在有一個新病人，化驗測試返回陽性，是否將病人斷定爲有癌症呢？我們可以來計算極大後驗假設：

$P (阳性 | c a n c e r) p (c a n c e r) = 0.98 * 0.008 = 0.0078$

$P (阳性 | 无 c a n c e r) * P (无 c a n c e r) = 0.03 * 0.992 = 0.0298$
因此，應該判斷爲無癌症。

確切的後驗概率可將上面的結果歸一化以使它們的和爲1：
$P (c a n n e r | 阳性) = 0.0078 / (0.0078 + 0.0298) = 0.21$

$P (c a n c e r | 阴性) = 0.79$

其實上：

P (c a n c e r | y a n g x i n g) = \frac{P (陽性 | 無 c a n c e r) P (c a n c e r)}{P (陽性)} = \frac{P (陽性 | 無 c a n c e r) P (c a n c e r)}{P (陽性 | c a n c e r) P (c a n c e r) + P (陽性 | 無 c a n c e r) P (無 c a n c e r)} = \frac{0.0078}{0 .98*0.008+0.03*0.992} = \frac{0.0078}{0.0376} = 0.21

也即是通過直接歸一化獲得

P (c a n n e r | 阳 性)

與除以分母

P (阳 性)

獲得的

P (c a n n e r | 阳 性)

的結果相同相同，所以以後直接使用歸一化方法即可。

貝葉斯推理的結果很大程度上依賴於先驗概率，另外不是完全接受或拒絕假說某個假說$$，只是在觀察到較多的數據後增大或減小了某個假說$h$的可能性。

先驗概率是關於某個事件的先驗知識，計算後驗概率並不是說先驗概率有錯誤，只是在觀察到較多的數據後對先驗概率進行的調整。比如說通過統計100年的降水情況獲得一天下雨的先驗概率，但是由於氣候在不斷髮生變化，因此使用最近今年的降水情況對先驗概率進行調整，來獲取對某天下雨更精確的預測，即爲後驗概率。

7、貝葉斯分類具有如下特點：

貝葉斯分類並不把一個對象絕對地指派給某一類，而是通過計算得出屬於某一類的概率，具有最大概率的類便是該對象所屬的類；
一般情況下在貝葉斯分類中所有的屬性都潛在地起作用，即並不是一個或幾個屬性決定分類，而是所有的屬性都參與分類；
貝葉斯分類對象的屬性可以是離散的、連續的，也可以是混合的。

貝葉斯定理給出了最小化誤差的最優解決方法，可用於分類和預測。理論上，它看起來很完美，但在實際中，它並不能直接利用，它需要知道樣本的確切分佈概率，而實際上我們並不能確切的給出樣本的分佈概率。因此我們在很多分類方法中都會作出某種假設以逼近貝葉斯定理的要求。

部分參考：
blog.csdn.net/chl033/archive/2009/10/26/4731005.aspx
blog.csdn.net/u014313009/article/details/39825827?utm_source=tuicool&utm_medium=referral
blog.csdn.net/xianlingmao/article/details/7340099

本系列文章爲原創，轉載請註明出處。
作者：Dongdong Bai
郵箱： [email protected]

若您覺得本博文對您有幫助，請您爲我點贊並關注我，以鼓勵我寫出更優秀的博文。謝謝！

Dongdong Bai

發佈了31 篇原創文章 · 獲贊 175 · 訪問量 28萬+

私信關注

貝葉斯法則,先驗概率,後驗概率,極大後驗估計,極大似然估計

一、基本概念

1、先驗概率和後驗概率

2、共軛（先驗）分佈

二、機器學習中的應用

1、貝葉斯法則

2、先驗概率和後驗概率

3、貝葉斯公式

4、極大後驗估計（Maximize a Posterior，MAP）

5、極大似然估計（Maximize Likelihood Estimation, MLE）

6、舉例

7、貝葉斯分類具有如下特點：

將CD加入Ubuntu的apt-get源

Ubuntu出現包依賴錯誤的解決方法

貝葉斯法則,先驗概率,後驗概率,極大後驗估計,極大似然估計

解決Ubuntu輸入密碼正確，但是進不去系統

git忽略特殊文件

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結