参考文献:机器学习与数据挖掘参考文献
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率损失来选择最优的类别标记。即对每个样本x,它选择能使后验概率P(c|x)最大的类别标记:
其中h*(x)是贝叶斯最优分类器,c是有N种可能类别标记的类别空间Y=(c1,c2,...,cN)的一个类别。
基于贝叶斯定理,P(c|x)可写为:
对类条件概率P(x|c)来说,由于它涉及关于样本x所有特征的联合概率,直接根据样本出现的频率来估计将会遇到严重的困难。为避开这个障碍,朴素贝叶斯分类器采用了特征条件独立假设:对已知类别,假设所有特征相互独立。因此上式可重写为:
其中d为特征数目,xi为在第i个特征上的取值。
由于对所有类别来说P(x)相同,因此基于上式的贝叶斯判定准则有:
这就是朴素贝叶斯分类器的表达式。