机器学习方法篇(16)------朴素贝叶斯分类

● 每周一言

烟花易冷,也曾发光发热。

导语

上周讲了四个概率统计公式,加法公式、乘法公式、贝叶斯公式、全概率公式,其中的贝叶斯公式由概率乘法公式联立推出。作为贝叶斯分类中应用最广泛的模型,朴素贝叶斯分类模型的算法思想是什么?这些公式又是如何运用到分类问题当中的?

朴素贝叶斯分类

朴素贝叶斯分类,顾名思义是一种简单而直观的分类算法。其思想出发点也的确很朴素,就是根据待分类样本在各个类别中出现的概率,哪个最大就属于哪个。比如黄皮肤的人多半会认为来自亚洲,而黑人多半会认为来自非洲,白人则多半会认为来自非洲。

fig1

当然,上面只用到了一种分类特征,肤色。在一般分类问题中,我们通常需要考虑多种特征,而这些特征两两之间有可能存在一定的相关性。比如语言和肤色,价格和销量等。
fig2

我们知道,贝叶斯分类的目标是:根据样本的先验概率,准确估计出待分类样本的后验概率。用贝叶斯公式写出其目标函数如下,其中c为类别,x为样本。
f(x)=argmaxcP(c|x)=argmaxcP(x|c)P(c)P(x)=argmaxcP(x|c)P(c)

但是由于存在特征之间相关性的不确定性,很难根据训练样本计算出上式条件概率P(x|c)的概率分布。这个时候,朴素贝叶斯便应运而生。朴素贝叶斯避开了这个难题,对条件概率分布作了条件独立假设,如下:
P(x|c)=idP(xi|c)

有了上面的条件概率简化计算方式,朴素贝叶斯分类的目标函数就变为如下形式:
f(x)=argmaxcP(c|x)=argmaxcP(c)idP(xi|c)

上式便是朴素贝叶斯分类公式。P(c)可以直接统计训练样本中各个类别的占比得出。
P(c)=|Dc||D|

对于离散特征,条件概率P(x|c)可通过计算在c类别中第i个属性上取值为xi 的比例得出,公式如下:
P(x|c)=|Dc,xi||Dc|

而对于连续特征,需先调研假设特征符合某种分布规律,比如常见的二项分布、高斯分布、泊松分布、伯努利分布等,再计算出相应的条件概率。

得到条件概率后,概率最大的类别即为朴素贝叶斯分类模型的输出。

fig3

需要注意的是,概率计算过程中有可能出现概率值为0,从而导致连乘后值为0的情况。这里引入拉普拉斯平滑系数,简单理解就是分子分母同时加上一个常数,来避免计算值为0。可以证明,当训练集足够大时,加入拉普拉斯平滑系数的估计值将趋近实际概率值。

以上便是朴素贝叶斯分类的讲解,敬请期待下节内容。

结语

感谢各位的耐心阅读,后续文章于每周日奉上,敬请期待。欢迎大家关注小斗公众号 对半独白

face

发布了91 篇原创文章 · 获赞 113 · 访问量 27万+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章