Naive Bayes樸素貝葉斯

讓我們回到女運動員的例子上。假設我問你Brittney Griner從事什麼運動(體操、馬拉松、籃球)並且我告訴你她有6尺8、207磅。我想你會說籃球,如果我問你對你的選擇有多大把握,我想你會對答案非常有信心。

現在我問你Heather Zurich從事什麼運動,她6尺1、176磅,我不確定答案是什麼。你也許會說籃球,但沒有預測Brittney Griner那樣有信心。她也許是高大的馬拉松運動員。

最後我問你Yumiko Hara從事什麼運動,她5尺4、95磅。也許你會選擇體操,但也沒有多大把握,因爲有些馬拉松運動員有相似的身高體重。

用最近鄰算法將會非常困難去度量分類器的好壞。而用基於概率的貝葉斯方法作爲分類方法不但可以進行分類,而且可以進行概率分類——這個運動員有80%的可能是籃球運動員,這個病人有40%的概率在未來五年患病,未來24小時在Las Cruces下雨的概率是10%。

最近鄰方法稱爲lazy learners(懶學生)。之所以這麼叫是因爲當我們給它們一堆測試集合,它們僅僅是存儲或記憶,它遍歷了整個測試集。如果有100000首歌曲在測試集裏,它每次將一個實例分類將遍歷這100000首歌曲。

貝葉斯方法稱爲eager learners(餓學生)。當給予了測試集,它立刻分析數據建立模型,在對實例分類的時候就使用這個模型。餓學生分類比懶學生快。

進行概率分類的能力和餓學生的特性是貝葉斯方法的兩個優點。

條件概率:


貝葉斯理論:

貝葉斯理論描述了P(A), P(A|B), P(B), and P(B|A)之間的關係:


這個理論是所有貝葉斯方法的基石。通常在數據挖掘裏我們使用這個理論在alternative hypotheses(備擇假設)中決策。舉個例子,這個人是體操、馬拉松還是籃球運動員。爲了在備擇中進行決策,我們計算出每個假設的值,取出最大概率值的假設。


用python來做樸素貝葉斯分類:




發佈了54 篇原創文章 · 獲贊 4 · 訪問量 2萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章