统计学习方法——第4章 朴素贝叶斯法

朴素贝叶斯法(naive Bayes):

      朴素贝叶斯法是基于贝叶斯理论与特征条件独立假设的分类方法。  对于给定的数据集,基于特征条件独立假设学习输入/输出的联合概率分布P(X,Y),然后基于此模型,对给定的输入x,利用贝叶斯定理求解最大化后验概率的输出y

4.1 学习策略:   

      设输入空间\mathcal{X} \subseteq \mathbf{R}^{n}为n维向量的集合,输出空间为类别标记的集合, \mathcal{Y}=\{ c_1,c_2,....,c_K\}X是定义在输入空间\mathcal{X}的随机向量,Y是定义在输出空间\mathcal{Y}上的随机变量,P(X,Y)是随机变量XY的联合概率分布。

训练数据集:T=\{ (x_1,y_1), (x_2, y_2), ...., (x_N, y_N) \}

先验概率分布:P(Y=c_k)\ \ \ k=1,2...,K

条件概率分布:P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)},X^{(2)}=x^{(2)},...,X^{(n)}=x^{(n)}|Y=c_k)

朴素贝叶斯对条件概率做独立性假设,即:P(X=x|Y=c_k)=\prod_{j=1}^{n}P(X^{(j)}|Y=c_k)

后验概率:(给定输入x

                                                         P(Y=c_k|X=x)=\dfrac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_k{P(X=x|Y=c_k)}P(Y=c_k)}

带入得: 

                     P(Y=c_k|X=x)=\dfrac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_k{P(X=x|Y=c_k)}P(Y=c_k)}=\dfrac{P(Y=c_k)\prod _jP(X^{(j)}=x^{(j)}|Y=c_k)}{\sum P(Y=c_k)\prod_jP(X^{(j)}=x^{(j)}|Y=c_k)}

4.2 朴素贝叶斯分类器

                                              y=f(x)=arg\max_c_k\dfrac{P(Y=c_k)\prod _jP(X^{(j)}=x^{(j)}|Y=c_k)}{\sum P(Y=c_k)\prod_jP(X^{(j)}=x^{(j)}|Y=c_k)}

注意到所有分母均相同,由于化简式为:y=f(x)=arg\max_c_k{P(Y=c_k)\prod _jP(X^{(j)}=x^{(j)}|Y=c_k)}

后验概率最大化的含义:

设损失函数为0-1损失函数,期望风险函数为:R_{exp}(f)=E[L(Y, f(X))],由于期望是条件概率的期望,则该条件期望为:

                                                              R_{exp}(f)=E_x\sum_{k=1}^{K}[L(c_k, f(X))]P(c_k|X)

X=x逐个极小化,由此可得:

                                                      f(x)=arg\min_{y\in\mathcal{Y}}\sum_{k=1}^KL(c_k,f(X))P(c_k|X=x)

                                                      f(x)=arg\min_{y\in\mathcal{Y}}(1-P(Y=c_k|X=x))

                                                      f(x)=arg\max_{y\in\mathcal{Y}}(P(Y=c_k|X=x))

所以,根据期望风险最小化准则得到的后验概率最大化准则:

                                                     f(x)=arg\max_{y\in\mathcal{Y}}(P(Y=c_k|X=x))

4.3 贝叶斯参数估计

极大似然估计:

先验概率P(Y=c_k)的极大似然估计:P(Y=c_k)=\dfrac{ \sum_{i=1}^{N}I(Y=c_k)}{N}

条件概率P(X^{(j)}=a_{jl}|Y=c_k)的极大似然估计:P(X^{(j)}=a_{jl}|Y=c_k)=\dfrac{\sum_{i=1}^{N}I(x_i^{(j)}=a_{jl},y_i=c_k) }{\sum_{i=1}^{N}I(y_i=c_k)}

对给定的实例x=(x^{(1)},x^{(2)},...,x^{n})^T,计算y=f(x)=arg\max_c_k{P(Y=c_k)\prod _jP(X^{(j)}=x^{(j)}|Y=c_k)},确定实例类别。

贝叶斯估计:

由于极大似然估计会出现估计的概率值为0的情况,使分类产生偏差,使用贝叶斯估计解决该问题。

先验概率的贝叶斯估计:P_\lambda (Y=c_k)=\dfrac{\sum_{i=1}^NI(y_i=c_k)+\lambda}{N+K\lambda}

条件概率的贝叶斯估计:   P_\lambda (X^{(j)}=a_{jl}|Y=c_k)=\dfrac{\sum_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)+\lambda}{\sum_{i=1}^NI(y_i=c_k)+S_i\lambda}

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章