机器学习方法篇(16)------朴素贝叶斯分类

原創

2020-02-21 21:40

● 每周一言

烟花易冷，也曾发光发热。

导语

上周讲了四个概率统计公式，加法公式、乘法公式、贝叶斯公式、全概率公式，其中的贝叶斯公式由概率乘法公式联立推出。作为贝叶斯分类中应用最广泛的模型，朴素贝叶斯分类模型的算法思想是什么？这些公式又是如何运用到分类问题当中的？

朴素贝叶斯分类

朴素贝叶斯分类，顾名思义是一种简单而直观的分类算法。其思想出发点也的确很朴素，就是根据待分类样本在各个类别中出现的概率，哪个最大就属于哪个。比如黄皮肤的人多半会认为来自亚洲，而黑人多半会认为来自非洲，白人则多半会认为来自非洲。

当然，上面只用到了一种分类特征，肤色。在一般分类问题中，我们通常需要考虑多种特征，而这些特征两两之间有可能存在一定的相关性。比如语言和肤色，价格和销量等。

我们知道，贝叶斯分类的目标是：根据样本的先验概率，准确估计出待分类样本的后验概率。用贝叶斯公式写出其目标函数如下，其中c为类别，x为样本。

f (x) = a r g m a x c P (c | x) = a r g m a x c P ( x | c ) P ( c ) P ( x ) = a r g m a x c P (x | c) P (c)

但是由于存在特征之间相关性的不确定性，很难根据训练样本计算出上式条件概率P(x|c)的概率分布。这个时候，朴素贝叶斯便应运而生。朴素贝叶斯避开了这个难题，对条件概率分布作了条件独立假设，如下：

P (x | c) = \prod i d P (x i | c)

有了上面的条件概率简化计算方式，朴素贝叶斯分类的目标函数就变为如下形式：

f (x) = a r g m a x c P (c | x) = a r g m a x c P (c) \prod i d P (x i | c)

上式便是朴素贝叶斯分类公式。P(c)可以直接统计训练样本中各个类别的占比得出。

P (c) = | D c | | D |

对于离散特征，条件概率P(x|c)可通过计算在c类别中第i个属性上取值为

xi 的比例得出，公式如下：

P (x | c) = | D c , x i | | D c |

而对于连续特征，需先调研假设特征符合某种分布规律，比如常见的二项分布、高斯分布、泊松分布、伯努利分布等，再计算出相应的条件概率。

得到条件概率后，概率最大的类别即为朴素贝叶斯分类模型的输出。

需要注意的是，概率计算过程中有可能出现概率值为0，从而导致连乘后值为0的情况。这里引入拉普拉斯平滑系数，简单理解就是分子分母同时加上一个常数，来避免计算值为0。可以证明，当训练集足够大时，加入拉普拉斯平滑系数的估计值将趋近实际概率值。

以上便是朴素贝叶斯分类的讲解，敬请期待下节内容。

结语

感谢各位的耐心阅读，后续文章于每周日奉上，敬请期待。欢迎大家关注小斗公众号 对半独白！

对半独白

发布了91 篇原创文章 · 获赞 113 · 访问量 27万+

私信关注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

机器学习方法篇(16)------朴素贝叶斯分类

● 每周一言

导语

朴素贝叶斯分类

结语

[软件工具百科] 互联网资源历史快照归档站点与数字图书馆

网易面试：SpringBoot如何开启虚拟线程？

杭州的 IT 崩盘了么？

程序员常见的文本查看工具

VS2022 解决方案打不开 .NET Framework 4.0 、 4.5 等老项目

Vue3 运行可以，build 打包发布报错，app.config.globalProperties 用法坑

既然测试也要求写代码，那干脆让开发兼任测试不就好了吗？

ITSM落地经验之建设蓝图规划

PDF 补丁丁 1.0.2 版更新

奇怪！应用的日志呢？？

機器學習方法篇(10)------隨機森林

NOIP回憶錄

二分查找與補丁規避

機器學習方法篇(12)------拉格朗日乘子法

機器學習方法篇(11)------SVM入門

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結