樸素貝葉斯分類器

原創

2020-02-22 21:04

算是機器學習比較經典的算法中之一了，剛開始接觸機器學習的時候就有耳聞，當時看了看，看不懂，現在回過頭來漸入佳境，寫個博客mark一下。

貝葉斯定理由英國數學家貝葉斯 ( Thomas Bayes 1702-1763 ) 發展，用來描述兩個條件概率之間的關係，比如 P(A|B) 和 P(B|A)。
按照乘法法則：

P (A \cap B) = P (A) P (B | A) = P (B) P (A | B)

如上公式也可變形爲：

P (B | A) = P ( A | B ) P ( B ) P ( A )

小明的擇偶觀,下面這個表格是小明對5個不同的妹子的態度。

那麼現在問題來了，假如又來個D罩杯清純風格的妹子（話說D罩杯還能是清純風格麼。。。），小明喜歡這個妹子的概率是多少呢？即求：

P (小 明 喜 歡 | (D 罩 杯 \times 清 純))

由上面的貝葉斯定理：

P (小 明 喜 歡 | (D 罩 杯 \times 清 純)) = P ( ( D 罩 杯 \times 清 純 ) | 小 明 喜 歡 ) P ( 小 明 喜 歡 ) P ( D 罩 杯 \times 清 純 )

假設D罩杯和清純是相互獨立的事件：

P (小 明 喜 歡 | (D 罩 杯 \times 清 純)) = P ( D 罩 杯 | 小 明 喜 歡 ) P ( 清 純 | 小 明 喜 歡 ) P ( 小 明 喜 歡 ) P ( D 罩 杯 ) P ( 清 純 ) = 1 3 \times 1 3 \times 0.6 0.2 \times 0.4 = 5 6

大概是83.33%左右，小明會喜歡這個妹子，概率還是挺高的。

上面那個例子就是貝葉斯分類器的基本方法：在統計資料的基礎上，依據某些特徵，計算各個類別的概率，從而實現分類。用更學術的語言來闡述一下：某一個體有n個特徵:F1,F2,F3,...,Fn ，有m個類別:C1,C2,C3,...,Cm 。我們要給某個個體分類，就是求

m a x : P (C i | (F 1 \times F 2 . . . \times F n)) 其 中 i = 1, 2, 3, . . . m

根據貝葉斯定理可得：

P (C i | (F 1 \times F 2 . . . \times F n)) = P ( ( F 1 \times F 2 . . . \times F n ) | C i ) P ( C i ) P ( F 1 \times F 2 . . . \times F n )

P(F1×F2...×Fn) 對每個分類而言都是相等的，問題轉換成了求

P((F1×F2...×Fn)|Ci)P(Ci) 的最大值。假設這些特徵之間相互獨立，問題又變成了求

P(F1|Ci)P(F2|Ci)...P(Fn|Ci)P(Ci) 的最大值，這些值都是可以通過訓練數據得到的。

發佈了60 篇原創文章 · 獲贊 18 · 訪問量 11萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.