樸素貝葉斯分類

原創

2018-08-25 21:20

樸素貝葉斯分類

貝葉斯分類是機器學習中一個重要的分類算法，由於其簡單高效，所以在實戰中非常受歡迎。

本文將介紹貝葉斯分類中兩個比較典型的算法——樸素貝葉斯與貝葉斯信念網絡。

基礎知識

在開始介紹算法之前，我們先溫習幾個概率論上幾個基礎知識。

1.條件概率:P(A|B)

表示在B發生的情況下A發生的概率。

例如：在一堆棋子中有方形和圓形兩種，方形有紅色和白色，圓形有黃色和綠色。問，在已知一顆棋子是方形的情況下該棋子是紅色的概率是多少。

那麼這個問題就可以表示成——P(棋子是紅色|方形棋子)

2.先驗概率

是在獲得某些信息或者依據前，對 P 的不確定性進行猜測。

例如：下雨之前會颳風，那麼在沒有觀察是否颳風之前求下雨的概率就是先驗概率。

3.後驗概率

“後驗”在這裏意思是，考慮相關事件已經被檢視並且能夠得到一些信息。比如在判斷到颳風的情況下再預測下雨的概率。

後驗概率包含了先驗信息以及觀測樣本數據提供的後驗信息，對先驗概率進行了修正，更接近真實情況。

貝葉斯定理

P (A | B) = P ( B | A ) P ( A ) P ( B )

其中P(A|B)是在B發生的情況下A發生的可能性。

在貝葉斯定理中，每個名詞都有約定俗成的名稱:

•   P(A|B)是已知B發生後A的條件概率，也由於得自B的取值而被稱作A的後驗概率。
•   P(B|A)是已知A發生後B的條件概率，也由於得自A的取值而被稱作B的後驗概率。
•   P(A)是A的先驗概率（或邊緣概率）。之所以稱爲"先驗"是因爲它不考慮任何B方面的因素。
•   P(B)是B的先驗概率或邊緣概率。

按這些術語，貝葉斯定理可表述爲：
後驗概率 = (相似度*先驗概率)/標準化常量

也就是說，後驗概率與先驗概率和相似度的乘積成正比。

另外，比例P(B|A)/P(B)也有時被稱作標準相似度（standardised likelihood），貝葉斯定理可表述爲：

後驗概率 = 標準相似度*先驗概率