樸素貝葉斯分類

基礎知識
1條件概率公式
P(A|B)=P(AB)P(B)

2 全概率公式
設A1, A2, …,An, 是一組互不相容的事件,它們形成樣本空間的一個分割,則有全概率公式:
P(B)=P(A1B)+...+P(AnB)=P(A1)P(B|A1)+...+P(An)P(B|An)

3條件獨立
在給定時間C之下,如果事件A和事件B滿足
P(AB|C)=P(A|C)P(B|C)
則稱A和B在給定C之下條件獨立。

利用條件獨立公式做一個推導:
P(A|BC)=P(ABC)P(BC)=P(ABC)P(C)P(BC)P(C)=P(AB|C)P(B|C)=P(A|C)

樸素貝葉斯分類
設有c1, c2, …, c|C|, 其中|C|是類別總數。給定一個對象d,使得
P(C=cj|d) , 其中1j|C|
最大的cj, 就是d的類別。
接下來推導計算
P(C=cj|d)
的公式。

在數據集D中,令A1, A2, …, A|A|爲用離散值表示的屬性集合, 其中|A|爲屬性總數。給定對象d,觀察到屬性令a1到A|A|, 其中ai是Ai的一個可能的取值,即
d=<A1=a1,...,A|A|=a|A|>
於是
P(C=cj|d)=P(C=cj|A1=a1,...,A|A|=a|A|)

根據上面介紹的條件概率公式和全概率公式,我們可以做如下推導:
P(C=cj|A1=a1,...,A|A|=a|A|)=P(A1=a1,...,A|A|=a|A||C=cj)P(C=cj)P(A1=a1,...,A|A|=a|A|)=P(A1=a1,...,A|A|=a|A||C=cj)P(C=cj)|C|k=1P(A1=a1,...,A|A|=a|A||C=ck)P(C=ck)

條件獨立假設:假設所有屬性都條件獨立於類別C=cj , 於是有
P(A1=a1,...,A|A|=a|A||C=cj)=P(A1=a1|A2=a2,...,A|A|=a|A|,C=cj)P(A2=a2,...,A|A|=a|A||C=cj)=P(A1=a1|C=cj)P(A2=a2,...,A|A|=a|A||C=cj)=|A|i=1P(Ai=ai|C=cj)

於是有
P(C=cj|A1=a1,...,A|A|=a|A|)=P(C=cj)|A|i=1P(Ai=ai|C=cj)|C|k=1P(C=ck)|A|i=1P(Ai=ai|C=ck)
其中
P(C=cj)=cj
P(Ai=ai|C=cj)=Ai=ai|CjCj
我們最終找到了計算P(C=cj|d) 的公式。實際上,公式的分母對所有類別都是一樣的,所以我們用於分類的函數變爲:
c=argmaxcjP(C=cj)|A|i=1P(Ai=ai|C=cj)

參考資料:
《概率導論》第2版,(美)伯特瑟卡斯,(美)齊齊克利斯 著,鄭忠國,童行偉 譯
《Web數據挖掘》第2版,Bing Liu 著, 俞勇 譯

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章