貝葉斯分類是統計學的一個分類方法,基於貝葉斯定理。首先貝葉斯分類的一個核心假設是一個屬性值對給定類的影響獨立於其他屬性的值(類條件獨立)。
先來看下條件概率:
設A、B是兩個事件,且P(B)>0,則稱 爲在事件B發生的條件下,事件A的條件概率。
再來看一下貝葉斯定理:。
其中:
X 是類標識未知的數據樣本(或數據元組)
如:35歲收入$4000的顧客
H 是數據樣本X屬於某特定類C的某種假定。
如:假設顧客將購買計算機
P(H/X):條件X下H的後驗概率
如:知道顧客年齡與收入時,顧客將購買計算機的概率
P(H):H的先驗概率,即在我們觀察任何樣本前的初始概率,它反應了背景知識。
如:任意給定的顧客將購買計算機的概率。
P(X):被觀察的樣本數據的概率
如:顧客中年齡35歲收入$4000的概率
P(X|H) :條件H下,X的後驗概率
如:已知顧客購買計算機,該顧客爲35歲收入$4000的概率
樸素貝葉斯分類器
由於P(X)對於任何一個類別H而言,其值都是固定的,因此在計算P(H|X)時不需要考慮。
上面已經提到了樸素貝葉斯分類的核心假設是X向量中的每一個參數xi與xj之間都是相互獨立的(類條件獨立),因此有下面計算P(X|H)的公式:
可將Ci看成爲H。
對未知樣本X分類,也就是對每個類Ci,計算p(X|Ci)*p(Ci)。
樣本X被指派到類Ci,當且僅當p(Ci|X) > p(Cj|X), 1≤j≤m , j≠i,換言之,X被指派到p(X|Ci) *p(Ci)最大的類。
有了上面的知識,樸素貝葉斯分類器就變成了簡單的概率計算了。基於訓練集的數據,事先計算出每個類別的概率P(Ci),再計算出每個類別下每個參數的概率P(xi|Ci)。當面臨一個新樣本時,利用上面簡化的貝葉斯公式計算出P(Ci|X),值最大的Ci記爲分類結果。爲了防止出現零概率現象,可以在保存的每個概率的分子分母都+1。
下面看一個例子: