樸素貝葉斯算法推導分析

原創

2020-06-01 00:10

Author: DivinerShi
朴樹貝葉斯方法其實就是一個根據先驗求後驗的過程。
**優點：**思想簡單，實現方便，適合小規模數據，適合多分類問題；
**缺點：**需要基於一定的假設，假設各個特徵之間相互獨立；對輸入數據的表現形式較爲敏感。

比如有一堆橘子，其中大部分青皮的，光滑的，小個的橘子比較酸，大部分黃皮的，粗糙的，大個的橘子比較甜。那麼現在現在來了一個青皮的，光滑的，大個的橘子，我們就可以根據之前的先驗知識，去計算這個橘子是酸的還是甜的概率，並將概率最大的作爲它的預測的酸甜度。

用數學描述：

即通過先驗條件概率分佈來計算後驗概率分佈
是總類別的第k個的意思。Y是類別，X是樣本。
樸素貝葉斯是基於條件獨立性假設的，它對條件概率分佈作了條件獨立性的假設。如下：

這裏的表示x的第1個特徵
這個假設就是說用於分類的樣本的各個特徵在類確定的條件下都是條件獨立的。但是真實情況下，樣本的不同特徵總是存在一定的相關性，所以樸素貝葉斯因該假設變得簡單，也因該假設影響了一定的分類準確度。
因此，對給定的輸入x，可以通過如下公式計算後驗概率分佈，並將後驗概率最大的類作爲x的類別，後驗概率計算根據貝葉斯定理得：

再把（1）帶入（2），可得

根據這個公司就可以算出樣本屬於每個類的概率，然後找出概率值最大的就可以了，

其中上式中，分母都是一樣的，而我們只需要找到最大的，那麼完全可以把分母去掉、