樸素貝葉斯分類

基礎知識
1條件概率公式
P(A|B)=P(A⋂B)P(B)

2 全概率公式
設A₁, A₂, …,A_n, 是一組互不相容的事件，它們形成樣本空間的一個分割，則有全概率公式：
P(B)=P(A1⋂B)+...+P(An⋂B)=P(A1)P(B|A1)+...+P(An)P(B|An)

3條件獨立
在給定時間C之下，如果事件A和事件B滿足
P(A⋂B|C)=P(A|C)P(B|C)
則稱A和B在給定C之下條件獨立。

利用條件獨立公式做一個推導：
P(A|B⋂C)=P(A⋂B⋂C)P(B⋂C)=P(A⋂B⋂C)P(C)P(B⋂C)P(C)=P(A⋂B|C)P(B|C)=P(A|C)

樸素貝葉斯分類
設有c₁, c₂, …, c_|C|, 其中|C|是類別總數。給定一個對象d，使得
P(C=cj|d) ，其中1≤j≤|C|
最大的c_j, 就是d的類別。
接下來推導計算
P(C=cj|d)
的公式。

在數據集D中，令A₁, A₂, …, A_|A|爲用離散值表示的屬性集合, 其中|A|爲屬性總數。給定對象d，觀察到屬性令a₁到A_|A|，其中a_i是A_i的一個可能的取值，即
d=<A1=a1,...,A|A|=a|A|>
於是
P(C=cj|d)=P(C=cj|A1=a1,...,A|A|=a|A|)

根據上面介紹的條件概率公式和全概率公式，我們可以做如下推導：
P(C=cj|A1=a1,...,A|A|=a|A|)=P(A1=a1,...,A|A|=a|A||C=cj)P(C=cj)P(A1=a1,...,A|A|=a|A|)=P(A1=a1,...,A|A|=a|A||C=cj)P(C=cj)∑|C|k=1P(A1=a1,...,A|A|=a|A||C=ck)P(C=ck)

條件獨立假設：假設所有屬性都條件獨立於類別C=cj , 於是有
P(A1=a1,...,A|A|=a|A||C=cj)=P(A1=a1|A2=a2,...,A|A|=a|A|,C=cj)P(A2=a2,...,A|A|=a|A||C=cj)=P(A1=a1|C=cj)P(A2=a2,...,A|A|=a|A||C=cj)=∏|A|i=1P(Ai=ai|C=cj)

於是有
P(C=cj|A1=a1,...,A|A|=a|A|)=P(C=cj)∏|A|i=1P(Ai=ai|C=cj)∑|C|k=1P(C=ck)∏|A|i=1P(Ai=ai|C=ck)
其中
P(C=cj)=屬於類別cj的對象總數數據集中的對象總數
P(Ai=ai|C=cj)=Ai=ai|並且屬於Cj的對象總數屬於類別Cj的對象總數
我們最終找到了計算P(C=cj|d) 的公式。實際上，公式的分母對所有類別都是一樣的，所以我們用於分類的函數變爲：
c=argmaxcjP(C=cj)∏|A|i=1P(Ai=ai|C=cj)

參考資料：
《概率導論》第2版，（美）伯特瑟卡斯，（美）齊齊克利斯著，鄭忠國，童行偉譯
《Web數據挖掘》第2版，Bing Liu 著，俞勇譯

樸素貝葉斯分類

Wireshark 安裝+使用（一）

LeetCode145 Binary Tree Postorder Traversal（迭代實現） Java

LeetCode94 Binary Tree Inorder Traversal（迭代實現） Java

Diffie-Hellman 密鑰交換算法

LeetCode144 Binary Tree Preorder Traversal（迭代實現） Java

基於圖的評級算法——HITS

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結