机器学习第七篇——朴素贝叶斯

原創

2018-09-13 10:58

今天要和大家谈的朴素贝叶斯也是一种机器学习分类算法，但它和其他机器学习分类算法不太一样。对于大多数的机器学习分类算法，诸如逻辑回归、决策树、SVM等，他们都是判别方法，也就是直接学习出特征X和类别Y之间的关系，但朴素贝叶斯是基于贝叶斯决策理论和特征属性独立假设的生成方法。

下面我们先来了解贝叶斯决策理论。

一、贝叶斯决策理论

贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务来说，在所有相关概率都已知的理想情况下，贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。下面我们举个多分类任务。

假设类别标记有N种可能，即 $Y=\left \{ \right.c_{1},c_{2},...,c_{N}\left. \right \}$ ， $\lambda _{ij}$ 是将一个真实标记为 $c_{j}$ 的样本误分类为 $c_{i}$ 所产生的代价。则将一个样本x分类为 $c_{i}$ 所产生的期望代价如下：

$R(c_{i}|x)=\sum_{j=1}^{N}\lambda _{ij}P(c_{j}|x)$

这个式子的含义：在我们不知道样本x的真实标记的情况下，我们主观的判断这个样本属于 $c_{i}$ ，这个式子就为我们的主观判断施加一个代价。如果我们主观判断的标记和真实标记一样，则这个代价会很小，反之代价会很大。

我们希望我们主观判断的标记和样本的真实标记一致，也就是选择一个代价最小的主观判断，数学描述如下：

$h^{*}(x)=argmin R(c|x)$

若 $\lambda _{ij}=\left\{\begin{matrix} 0 &if i = j & \\ 1& otherwise& \end{matrix}\right.$ , 则 $R(c_{i}|x)=1 - P(c_{i}|x)$ ，于是最小化代价等价于 $h^{*}(x)=argmax P(c|x)$ 。于是对每一样本x，我们选择使后验概率最大的类别标记。

所以，我们要最小化代价等价于求最大的后验概率，但这通常是很难直接获得的，我们可以考虑贝叶斯公式。

$P(c|x)=\frac{P(x,c)}{P(x)}=\frac{P(c)P(x|c)}{P(x)}$

其中P(c)是类先验概率，表达了样本空间中各类样本所占的比例，根据大数定律，当训练集包含充足的独立同分布样本时，P(c)可通过各类样本出现的频率来进行估计。

P(x|c)是样本x相对于类标记c的类条件概率，由于它涉及关于x所有属性的联合概率，直接根据样本出现的频率来估计将会遇到严重的问题。例如，样本x有d个属性都是二值的，则样本空间将有 $2^{d}$ 中可能的取值，但如果d很大，则样本空间的可能取值数远大于训练样本数，这时候有许多可能的样本没有出现在训练集中，但它们的概率不一定为0。这就是“未被观察到”和"概率为0"的矛盾问题。