樸素的貝葉斯分類器(Naive Bayesian Classifier)

貝葉斯理論是處理不確定性信息的重要工具。作爲一種不確定性推理方法,它基於概率和統計理論,具有堅實的數學基礎,貝葉斯網絡在處理不確定信息的智能化系統中已經得到了廣泛的應用,並且成功地用於醫療診斷、統計決策、專家系統等領域。這些成功的應用,充分說明了貝葉斯技術是一種強有力的不確定性推理方法。貝葉斯分類器分爲兩種:一種是樸素貝葉斯分類器,另一種貝葉斯網分類器。

樸素貝葉斯分類器是一種有監督的學習方法,其假定一個屬性的值對給定類的影響而獨立於其他屬性值,此限制條件較強,現實中往往不能滿足,但是樸素貝葉斯分類器取得了較大的成功,表現出高精度和高效率,具有最小的誤分類率,耗時開銷小的特徵。貝葉斯網分類器是一種有向無環圖模型,能夠表示屬性集間的因果依賴。通過提供圖形化的方法來表示知識,以條件概率分佈表表示屬性依賴關係的強弱,將先驗信息和樣本知識有機結合起來;通過貝葉斯概率對某一事件未來可能發生的概率進行估計,克服了基於規則的系統所具有的許多概念和計算上的困難。其優點是具有很強的學習和推理能力,能夠很好地利用先驗知識,缺點是對發生頻率較低的事件預測效果不好,且推理與學習過程是NP—Hard的。

分類有基於規則的分類(查詢)和非規則分類(有指導學習)。貝葉斯分類是非規則分類,它通過訓練集(已分類的例子集)訓練而歸納出分類器(被預測變量是離散的稱爲分類,連續的稱爲迴歸),並利用分類器對未分類的數據進行分類。貝葉斯分類器中有代表性的分類器有樸素貝葉斯分類器、貝葉斯網絡分類器和樹增強樸素貝葉斯分類模型TAN等。


貝葉斯分類具有如下特點:

(1)貝葉斯分類並不是把一個實例絕對指派給某一類,而是通過計算得出屬於某一類的概率,具有最大概率的類是該實例所屬的類。

(2)一般情況下在貝葉斯分類中的所有屬性都直接或間接地發揮作用,即所有的屬性都參與分類,而不是一個或幾個屬性決定分類。

(3)貝葉斯分類實例的屬性可以是離散的、連續的,也可以是混合的。

假設A1,A2,...,An是數據集的n個特徵(屬性),假設有m個類,C={C1.C2,...Cm}給定一個具體的實例工其屬性爲{xl,x2,...,Xn},這裏Xi是屬性Ai的具體取值,該實例屬於某一個類Ci的後驗概率是P(X|Ci),C(X)表示分類所得的類標籤。貝葉斯分類器表示爲:


即預測實例X屬於在屬性給定條件下後驗概率最大的類別時,預測的正確率最大。

樸素貝葉斯分類模型

但是公式上述的後驗概率難以計算,因此樸素貝葉斯分類器引入了以下假設:在給定類別C的條件下,所有的屬性Ai相互獨立。即:

被稱爲“樸素貝葉斯假設“。

用貝葉斯網表達的樸素貝葉斯分類器如下圖所示:

在樸素貝葉斯分類算法中,既可以獨立的學習每個屬性Ai在類別屬性C下的條件概率P(Ai|C),也可以獨立學習每個屬性Ai的概率,因該值爲常數,可用歸一化因子a來代替。然後,分類器應用貝葉斯公式計算特定實例數據在給定屬性值下類別的後驗概率:

並預測該實例屬於後驗概率最大的類別。

樸素貝葉斯分類器的學習和分類

根據上述公式可知,最優分類C=Ci應該同時滿足滿足:

類別C的先驗概率分佈可以簡單的從訓練集數據中獲得其最大似然估計,等於不同類別屬性在數據集中出現的頻度,計算複雜度爲O(|D|)。

由於實例<al,...,an>的概率P(<al,...,an>)是一常數,在計算中僅進行歸一化處理,因此,學習的過程主要是通過訓練集估計屬性的後驗概率P(<al,...,an>|c)。根據樸素貝葉斯假設,應用貝葉斯公式展開:

右邊的每一項均可以用下式估計:


上式給出了最大似然度下的基於訓練數據集的參數估計值,同樣可在O(|D|)時間內計算。

樸素貝葉斯分類模型的優勢是:

1)算法邏輯簡單,易於實現;

2)分類過程中時間、空間開銷小;

3)算法性能穩定,對於不同的數據特點其分類性能差別不大,即模型健壯性比較好。

發佈了50 篇原創文章 · 獲贊 5 · 訪問量 35萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章