樸素貝葉斯分類器

背景

算是機器學習比較經典的算法中之一了,剛開始接觸機器學習的時候就有耳聞,當時看了看,看不懂,現在回過頭來漸入佳境,寫個博客mark一下。

貝葉斯定理

這裏寫圖片描述
貝葉斯定理由英國數學家貝葉斯 ( Thomas Bayes 1702-1763 ) 發展,用來描述兩個條件概率之間的關係,比如 P(A|B) 和 P(B|A)。
按照乘法法則:

P(AB)=P(A)P(B|A)=P(B)P(A|B)

如上公式也可變形爲:
P(B|A)=P(A|B)P(B)P(A)

舉個栗子:

小明的擇偶觀,下面這個表格是小明對5個不同的妹子的態度。

罩杯 風格 小明的態度
A 清純 不喜歡
A 呆萌 不喜歡
C 性感 喜歡
C 清純 喜歡
D 性感 喜歡

那麼現在問題來了,假如又來個D罩杯清純風格的妹子(話說D罩杯還能是清純風格麼。。。),小明喜歡這個妹子的概率是多少呢?即求:

P(|(D×))

由上面的貝葉斯定理:
P(|(D×))=P((D×)|)P()P(D×)

假設D罩杯和清純是相互獨立的事件:
P(|(D×))=P(D|)P(|)P()P(D)P()=13×13×0.60.2×0.4=56

大概是83.33%左右,小明會喜歡這個妹子,概率還是挺高的。

樸素貝葉斯分類器

上面那個例子就是貝葉斯分類器的基本方法:在統計資料的基礎上,依據某些特徵,計算各個類別的概率,從而實現分類。用更學術的語言來闡述一下:某一個體有n個特徵:F1,F2,F3,...,Fn ,有m個類別:C1,C2,C3,...,Cm 。我們要給某個個體分類,就是求

max:P(Ci|(F1×F2...×Fn))i=1,2,3,...m

根據貝葉斯定理可得:
P(Ci|(F1×F2...×Fn))=P((F1×F2...×Fn)|Ci)P(Ci)P(F1×F2...×Fn)

P(F1×F2...×Fn) 對每個分類而言都是相等的,問題轉換成了求P((F1×F2...×Fn)|Ci)P(Ci) 的最大值。假設這些特徵之間相互獨立,問題又變成了求P(F1|Ci)P(F2|Ci)...P(Fn|Ci)P(Ci) 的最大值,這些值都是可以通過訓練數據得到的。
發佈了60 篇原創文章 · 獲贊 18 · 訪問量 11萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章