拟合高斯分布与满足高斯分布的朴素贝叶斯分类器

拟合改高斯分布

什么叫概率密度

连续型随机变量的概率密度函数是描述这个变量的输出值,在某个确定的取值点附近的可能性的函数

的长度是个常数,由人来定义的。所以概率密度也可以算作是概率

概率密度的积分表示什么

随机变量的取值落在某个区域内的概率则为概率密度函数在这个区域的积分

分布函数F(x)又是什么

F(X)=P(X<=x);也就等于概率密度函数在负无穷到x上的积分

现在假设我们有一组训练集X_train,y_train,通过画图发现分布趋势如下所示

从图中可以发现这种图形可以使用高斯函数拟合,如何得到该高斯函数呢?

高斯函数本质上就只有两个参数,标准差和均值

因此我们只需要计算出训练集的均值和标准差,一个初步的高斯函数就有了

 

下面就可以通过模型优化进一步调整该高斯函数,使得模型的代价函数最小

满足高斯分布的朴素贝叶斯分类器

假设数据集如下所示

其中X表示特征空间,y表示分类结果

不妨假设y的取值只有C1,C2两类

第一步,首先把同类别的X实例放入列表中,和类别组成字典,如下图所示

X1,X2,X3,X4均假设满足高斯分布

那么我们首先需要计算X1,X2,X3,X4的高斯分布公式

假设结果为

假设有一个测试机数据X(x1,x2,x3,x4),求该X属于哪一类

只需把对应变量带入分布中,在各类别中取最大概率的那一类即可

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章