一、條件概率
公式:
P(A∣B)=P(B)P(AB)
指的是在事件B發生的條件下事件A發生的概率
二、全概率公式
目標是求“最後結果”的概率,由條件概率可得P(AB)=P(A∣B)P(B)
公式:
P(A)=i=1∑nP(A∣Bi)P(Bi)
其中B1,B2,...,Bn是樣本空間的劃分,A爲E的一個事件
三、貝葉斯公式
已知“最後結果”,求“某個事件”的概率,設樣本空間爲S。A爲E的一個事件,B1,B2,...,Bn是S的劃分,則公式爲:
P(Bi∣A)=P(A)P(ABi)=P(A)P(A∣Bi)P(Bi)
若B表示類別,A表示特徵則公式爲:
P(類別∣特徵)=P(特徵)P(特徵∣類別)P(類別)
可解釋爲在 當前特徵下是該類別的概率=該特徵的概率該類別中存在這一特徵的概率×該類別的概率
四、樸素貝葉斯 (舉例)
在樸素貝葉斯中假定了每一個xi都相互獨立。具體地條件獨立假設是
P(Y=ck∣X=x)=j∏P(X(j)=x(j)∣Y=ck)
將該公式帶入貝葉斯公式中結果爲:
P(Y=ck∣X=x)=∑i=1kP(X=x∣Y=ck)P(Y=ck)P(X=x∣Y=ck)=∑kP(Y=ck)∏jP(X(j)=x(j)∣Y=ci)P(Y=ck)∏jP(X(j)=x(j)∣Y=ck)
因爲對於所有地ck分母都是相同的,所以
y=argmaxP(Y=ck)j∏P(X(j)=x(j)∣Y=ck)
樸素貝葉斯法地學習與分類算法:
輸入:訓練集T={(x1,y1),(x2,y2),...,(xN,yN)}其中,xi=(xi(1),xi(2),...,xi(n))T,xi(j)是第i個樣本的第j個特徵,xi(j)∈{aj1,aj2,...,ajSj},ajl是第j個特徵值可能取的第l個值,實例特徵向量x;
輸出:實例x所屬的類y.
(1)計算先驗概率及條件概率
P(Y=ck)=N∑i=1NI(yi=ci)
P(Xj=ajl∣Y=ck)=∑i=1NI(yi=ck)∑i=1NI(xi(j)=aij,yi=ck)
j=1,2,...,n;l=1,2,...,S;k=1,2,...,K
(2)對於給定的實例x=(x1,x2,...,xn)T,計算
P(Y=ck)j∏P(X(j)=x(j)∣Y=ck),k=1,2,...K
(3)確定x的類:
y=argmaxP(Y=ck)j∏P(X(j)=x(j)∣Y=ck)
五、貝葉斯估計
由於使用最大似然估計時可能會出現估計概率爲0的情況。這樣會影響到後驗概率的計算結果,爲解決這一問題的方法是採用貝葉斯估計。具體的,條件概率的貝葉斯估計是:
Pλ(Xj=ajl∣Y=ck)=∑i=1NI(yi=ck)+Sjλ∑i=1NI(xi(j)=aij,yi=ck)+λ
其中λ≥0.等價於在隨機變量各個取值的頻數上賦予一個正數λ>0.當λ=0時就是極大似然估計。常取λ=1,這是稱爲拉普拉斯平滑。顯然對任何l=1,2,...,Sj,k=1,2,...,K,有
Pλ(Xj=ajl∣Y=ck)>0
l=1∑SjP(X(j)=ajl∣Y=ck)=1
同樣的,先驗概率的貝葉斯公式爲:
P(Y=ck)=N+Kλ∑i=1NI(yi=ci)+λ