朴素贝叶斯算法推导分析

Author: DivinerShi
朴树贝叶斯方法其实就是一个根据先验求后验的过程。
**优点:**思想简单,实现方便,适合小规模数据,适合多分类问题;
**缺点:**需要基于一定的假设,假设各个特征之间相互独立;对输入数据的表现形式较为敏感。

比如有一堆橘子,其中大部分青皮的,光滑的,小个的橘子比较酸,大部分黄皮的,粗糙的,大个的橘子比较甜。那么现在现在来了一个青皮的,光滑的,大个的橘子,我们就可以根据之前的先验知识,去计算这个橘子是酸的还是甜的概率,并将概率最大的作为它的预测的酸甜度。

用数学描述:

即通过先验这里写图片描述条件概率分布来计算后验概率分布这里写图片描述
这里写图片描述是总类别的第k个的意思。Y是类别,X是样本。
朴素贝叶斯是基于条件独立性假设的,它对条件概率分布作了条件独立性的假设。如下:
这里写图片描述
这里的这里写图片描述表示x的第1个特征
这个假设就是说用于分类的样本的各个特征在类确定的条件下都是条件独立的。但是真实情况下,样本的不同特征总是存在一定的相关性,所以朴素贝叶斯因该假设变得简单,也因该假设影响了一定的分类准确度。
因此,对给定的输入x,可以通过如下公式计算后验概率分布这里写图片描述,并将后验概率最大的类作为x的类别,后验概率计算根据贝叶斯定理得:
这里写图片描述
再把(1)带入(2),可得
这里写图片描述
根据这个公司就可以算出样本属于每个类的概率,然后找出概率值最大的就可以了,
这里写图片描述
其中上式中,分母都是一样的,而我们只需要找到最大的,那么完全可以把分母去掉、
这里写图片描述

具体的概率计算方法(参数估计)-极大似然估计

分布解释上面式子中用到的各个概率的计算方法
先验概率,就是取得某个类的概率,直接用该类在整个数据集中出现的次数计算,得
这里写图片描述
然后设第j个特征这里写图片描述可能取值的集合为这里写图片描述,条件概率这里写图片描述的极大似然估计是
这里写图片描述
式中,这里写图片描述是第i个样本的第j个特征;这里写图片描述是第j个特征可能取的第l个值;I为指示函数.

整个过程:

**输入:**训练数据这里写图片描述,其中这里写图片描述这里写图片描述是第i个样本的第j个特征,这里写图片描述是第j个特征可能取的第l个值,这里写图片描述,样本x;
输出:样本x的类别。

1.计算先验概率以及条件概率

这里写图片描述

2.对于给定的样本这里写图片描述,得
这里写图片描述

3.确定样本x的类别

这里写图片描述

参考:

统计学习方法-李航

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章