決策樹
- 決策樹以自頂向下, 遞歸分治的方式構造
- 屬性的選擇基於啓發式或統計度量(例如,信息增益)
- 節點上的樣本遞歸地基於選定的屬性劃分停止劃分的條件
樸素貝葉斯
先給個實例
類: C1:buys_computer=‘yes’ C2:buys_computer=‘no’
數據樣本
X =(age<=30, income=medium, student=yes, credit_rating=fair)
每個類的先驗概率P(Ci)可以根據訓練樣本計算
P(buys_computer = yes) = 9/14 = 0.643
P(buys_computer = no) = 5/14 = 0.357
計算下面的條件概率P(xk|Ci)
P(age=“<=30” | buys_computer=“yes”) = 2/9=0.222
P(age=“<=30” | buys_computer=“no”) = 3/5 =0.6
P(income=“medium” | buys_computer=“yes”)= 4/9 =0.444
P(income=“medium” | buys_computer=“no”) = 2/5 = 0.4
P(student=“yes” | buys_computer=“yes)= 6/9 =0.667
P(student=“yes” | buys_computer=“no”)= 1/5=0.2
P(credit_rating=“fair” | buys_computer=“yes”)=6/9=0.667
P(credit_rating=“fair” | buys_computer=“no”)=2/5=0.4
使用以上概率,我們得到 P(X|Ci)
P(X|buys_computer=“yes”)= 0.222 0.444 0.667 0.667 =0.044
P(X|buys_computer=“no”)= 0.6 0.4 x 0.2 0.4 =0.019
P(X|Ci) P(Ci )
P(X|buys_computer=“yes”) * P(buys_computer=“yes”)=0.028
P(X|buys_computer=“no”) * P(buys_computer=“no”)=0.007
因此,對於數據樣本X,樸素貝葉斯分類預測buys_computer =” yes”
如果P(xk|Ci)爲0,進行拉普拉斯變換
優點
易於實現,在數據較少的情況下仍然有效,可以處理多類別問題
在大部分情況下能夠得到很好的結果
當類條件獨立假定成立時,樸素貝葉斯分類是最精確的
缺點
假定: 類條件獨立 , 因而損失精度
實踐中, 變量之間存在依賴關係—-類條件獨立的假定不切實際
對於輸入數據的準備方式較爲敏感
適用數據類型:標稱型數據