一、条件概率
公式:
P(A∣B)=P(B)P(AB)
指的是在事件B发生的条件下事件A发生的概率
二、全概率公式
目标是求“最后结果”的概率,由条件概率可得P(AB)=P(A∣B)P(B)
公式:
P(A)=i=1∑nP(A∣Bi)P(Bi)
其中B1,B2,...,Bn是样本空间的划分,A为E的一个事件
三、贝叶斯公式
已知“最后结果”,求“某个事件”的概率,设样本空间为S。A为E的一个事件,B1,B2,...,Bn是S的划分,则公式为:
P(Bi∣A)=P(A)P(ABi)=P(A)P(A∣Bi)P(Bi)
若B表示类别,A表示特征则公式为:
P(类别∣特征)=P(特征)P(特征∣类别)P(类别)
可解释为在 当前特征下是该类别的概率=该特征的概率该类别中存在这一特征的概率×该类别的概率
四、朴素贝叶斯 (举例)
在朴素贝叶斯中假定了每一个xi都相互独立。具体地条件独立假设是
P(Y=ck∣X=x)=j∏P(X(j)=x(j)∣Y=ck)
将该公式带入贝叶斯公式中结果为:
P(Y=ck∣X=x)=∑i=1kP(X=x∣Y=ck)P(Y=ck)P(X=x∣Y=ck)=∑kP(Y=ck)∏jP(X(j)=x(j)∣Y=ci)P(Y=ck)∏jP(X(j)=x(j)∣Y=ck)
因为对于所有地ck分母都是相同的,所以
y=argmaxP(Y=ck)j∏P(X(j)=x(j)∣Y=ck)
朴素贝叶斯法地学习与分类算法:
输入:训练集T={(x1,y1),(x2,y2),...,(xN,yN)}其中,xi=(xi(1),xi(2),...,xi(n))T,xi(j)是第i个样本的第j个特征,xi(j)∈{aj1,aj2,...,ajSj},ajl是第j个特征值可能取的第l个值,实例特征向量x;
输出:实例x所属的类y.
(1)计算先验概率及条件概率
P(Y=ck)=N∑i=1NI(yi=ci)
P(Xj=ajl∣Y=ck)=∑i=1NI(yi=ck)∑i=1NI(xi(j)=aij,yi=ck)
j=1,2,...,n;l=1,2,...,S;k=1,2,...,K
(2)对于给定的实例x=(x1,x2,...,xn)T,计算
P(Y=ck)j∏P(X(j)=x(j)∣Y=ck),k=1,2,...K
(3)确定x的类:
y=argmaxP(Y=ck)j∏P(X(j)=x(j)∣Y=ck)
五、贝叶斯估计
由于使用最大似然估计时可能会出现估计概率为0的情况。这样会影响到后验概率的计算结果,为解决这一问题的方法是采用贝叶斯估计。具体的,条件概率的贝叶斯估计是:
Pλ(Xj=ajl∣Y=ck)=∑i=1NI(yi=ck)+Sjλ∑i=1NI(xi(j)=aij,yi=ck)+λ
其中λ≥0.等价于在随机变量各个取值的频数上赋予一个正数λ>0.当λ=0时就是极大似然估计。常取λ=1,这是称为拉普拉斯平滑。显然对任何l=1,2,...,Sj,k=1,2,...,K,有
Pλ(Xj=ajl∣Y=ck)>0
l=1∑SjP(X(j)=ajl∣Y=ck)=1
同样的,先验概率的贝叶斯公式为:
P(Y=ck)=N+Kλ∑i=1NI(yi=ci)+λ