基礎知識
1條件概率公式
P(A|B)=P(A⋂B)P(B)
2 全概率公式
設A1, A2, …,An, 是一組互不相容的事件,它們形成樣本空間的一個分割,則有全概率公式:
P(B)=P(A1⋂B)+...+P(An⋂B)=P(A1)P(B|A1)+...+P(An)P(B|An)
3條件獨立
在給定時間C之下,如果事件A和事件B滿足
P(A⋂B|C)=P(A|C)P(B|C)
則稱A和B在給定C之下條件獨立。
利用條件獨立公式做一個推導:
P(A|B⋂C)=P(A⋂B⋂C)P(B⋂C)=P(A⋂B⋂C)P(C)P(B⋂C)P(C)=P(A⋂B|C)P(B|C)=P(A|C)
樸素貝葉斯分類
設有c1, c2, …, c|C|, 其中|C|是類別總數。給定一個對象d,使得
P(C=cj|d) , 其中1≤j≤|C|
最大的cj, 就是d的類別。
接下來推導計算
P(C=cj|d)
的公式。
在數據集D中,令A1, A2, …, A|A|爲用離散值表示的屬性集合, 其中|A|爲屬性總數。給定對象d,觀察到屬性令a1到A|A|, 其中ai是Ai的一個可能的取值,即
d=<A1=a1,...,A|A|=a|A|>
於是
P(C=cj|d)=P(C=cj|A1=a1,...,A|A|=a|A|)
根據上面介紹的條件概率公式和全概率公式,我們可以做如下推導:
P(C=cj|A1=a1,...,A|A|=a|A|)=P(A1=a1,...,A|A|=a|A||C=cj)P(C=cj)P(A1=a1,...,A|A|=a|A|)=P(A1=a1,...,A|A|=a|A||C=cj)P(C=cj)∑|C|k=1P(A1=a1,...,A|A|=a|A||C=ck)P(C=ck)
條件獨立假設:假設所有屬性都條件獨立於類別C=cj , 於是有
P(A1=a1,...,A|A|=a|A||C=cj)=P(A1=a1|A2=a2,...,A|A|=a|A|,C=cj)P(A2=a2,...,A|A|=a|A||C=cj)=P(A1=a1|C=cj)P(A2=a2,...,A|A|=a|A||C=cj)=∏|A|i=1P(Ai=ai|C=cj)
於是有
P(C=cj|A1=a1,...,A|A|=a|A|)=P(C=cj)∏|A|i=1P(Ai=ai|C=cj)∑|C|k=1P(C=ck)∏|A|i=1P(Ai=ai|C=ck)
其中
P(C=cj)=屬於類別cj的對象總數數據集中的對象總數
P(Ai=ai|C=cj)=Ai=ai|並且屬於Cj的對象總數屬於類別Cj的對象總數
我們最終找到了計算P(C=cj|d) 的公式。實際上,公式的分母對所有類別都是一樣的,所以我們用於分類的函數變爲:
c=argmaxcjP(C=cj)∏|A|i=1P(Ai=ai|C=cj)
參考資料:
《概率導論》第2版,(美)伯特瑟卡斯,(美)齊齊克利斯 著,鄭忠國,童行偉 譯
《Web數據挖掘》第2版,Bing Liu 著, 俞勇 譯