數據挖掘算法和實踐(三):樸素貝葉斯

樸素貝葉斯同樣是一種常用的分類算法,經常用於垃圾郵件分類中,該算法依據概率論中樸素貝葉斯定理建立模型,前提是假設各個特徵之間相互獨立,其數學原理很容易理解:如果你看到一個人總是做好事,則會推斷那個人多半會是一個好人。這就是說,當你不能準確判斷時候,可以依靠事物特定本質相關的事件出現的多少(概率)作爲判斷依據,貝葉斯定理:

該公式表示在B發生的條件下A發生的條件概率,等於A事件發生條件下B事件發生的條件概率乘以A事件的概率,再除以B事件發生的概率。公式中,P(A)叫做先驗概率,P(A/B)叫做後驗概率。

舉個栗子:假設在校園裏面,一個非常炎熱的夏天晚上,伸手不見五指.......lol,這個時候迎面走來一個人,太遠看不清楚ta的性別,但我們知道ta的特徵是“短褲+短髮”,而且事先有一些學生的調查樣本,需要你根據某些特性大致判斷Ta的性別,請問你應該怎麼分類?

這樣分析,我們首先計算求得P(boy|短褲短髮)和P(girl|短褲短髮)然後比較兩者大小,作爲依據判定性別,也就是我們根據以往數據中穿着短褲短髮的人中boy和girl的條件概率作爲依據,來判斷當我們看見“短褲短髮”人的性別,在這個例子中我們很明顯把ta判定是個boy,核心思想就是這麼簡單:

拉普拉斯修正

由於特徵空間較爲稀疏,因此,常常會出現概率爲0的情況,在這種情況下,需要對其進行一些修正。常用的修正方法是拉普拉斯修正法,就是使得計算條件概率時候分子+1,很容易理解;

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章