今天要和大家談的樸素貝葉斯也是一種機器學習分類算法,但它和其他機器學習分類算法不太一樣。對於大多數的機器學習分類算法,諸如 邏輯迴歸 、決策樹、SVM等,他們都是判別方法,也就是直接學習出特徵X和類別Y之間的關係,但樸素貝葉斯是基於貝葉斯決策理論和特徵屬性獨立假設的生成方法。
下面我們先來了解貝葉斯決策理論。
一、貝葉斯決策理論
貝葉斯決策論是概率框架下實施決策的基本方法。對分類任務來說,在所有相關概率都已知的理想情況下,貝葉斯決策論考慮如何基於這些概率和誤判損失來選擇最優的類別標記。下面我們舉個多分類任務。
假設類別標記有N種可能,即,是將一個真實標記爲的樣本誤分類爲所產生的代價。則將一個樣本x分類爲所產生的期望代價如下:
這個式子的含義:在我們不知道樣本x的真實標記的情況下,我們主觀的判斷這個樣本屬於,這個式子就爲我們的主觀判斷施加一個代價。如果我們主觀判斷的標記和真實標記一樣,則這個代價會很小,反之代價會很大。
我們希望我們主觀判斷的標記和樣本的真實標記一致,也就是選擇一個代價最小的主觀判斷,數學描述如下:
若 , 則 ,於是最小化代價等價於 。於是對每一樣本x,我們選擇使後驗概率最大的類別標記。
所以,我們要最小化代價等價於求最大的後驗概率,但這通常是很難直接獲得的,我們可以考慮貝葉斯公式。
其中P(c)是類先驗概率,表達了樣本空間中各類樣本所佔的比例,根據大數定律,當訓練集包含充足的獨立同分布樣本時,P(c)可通過各類樣本出現的頻率來進行估計。
P(x|c)是樣本x相對於類標記c的類條件概率,由於它涉及關於x所有屬性的聯合概率,直接根據樣本出現的頻率來估計將會遇到嚴重的問題。例如,樣本x有d個屬性都是二值的,則樣本空間將有中可能的取值,但如果d很大,則樣本空間的可能取值數遠大於訓練樣本數,這時候有許多可能的樣本沒有出現在訓練集中,但它們的概率不一定爲0。這就是“未被觀察到”和"概率爲0"的矛盾問題。
P(x)是歸一化因子,對於比較和的大小沒有影響。
下面我們的一個難點是求P(x|c),一種可行的思路是假設P(x|c)具有確定形式並且被參數向量唯一確定,則我們可利用極大似然估計法求出。
比如我們假設P(x|c)服從的高斯分佈,則利用極大似然估計求出:
,
其中,爲訓練集中類別標記爲c的樣本集合。
很明顯,這種方法有個致命的缺陷:如果假設的概率分佈形式不符合潛在的真實數據分佈,則估計結果很不好。
二、樸素貝葉斯
爲什麼我們求P(x|c)會很困難,原因在於它涉及關於x所有屬性的聯合概率,難以從有限的訓練樣本直接估計。爲了避免這個障礙,樸素貝葉斯就假設所有屬性相互獨立,有了這個假設,求P(x|c)就有如下公式。
其中d爲屬性個數,爲x在第i個屬性上的取值。
下面我們的任務就是求出每個。對離散屬性來說,它的值爲在類別標記爲c的訓練樣本中,第i個屬性取值爲的樣本所佔的比例。即。
雖然樸素貝葉斯所假設的屬性獨立在現實情況中很少滿足,但這並不影響它的使用,特別是在文本分類中效果良好,一個具體的例子可以參照 留言檢測。