機器學習算法


1. 貝葉斯

2. 樸素貝葉斯

http://blog.csdn.net/amds123/article/details/70173402

分類問題可做如下定義:已知集合,確定映射規則y = f(x),使得任意有且僅有一個,使得成立


其中C叫做類別集合,其中每一個元素是一個類別,而I叫做項集合(特徵集合),其中每一個元素是一個待分類項,f叫做分類器。分類算法的任務就是構造分類器f。

爲什麼需要假設特徵之間相互獨立呢

特徵的聯合概率分佈總數非常多,現實生活中,往往有非常多的特徵,每一個特徵的取值也是非常之多

樸素貝葉斯法對條件概率分佈做了條件獨立性的假設,這一假設使得樸素貝葉斯法變得簡單,但有時會犧牲一定的分類準確率。

優點:算法邏輯簡單,易於實現分類過程中時空開銷小;算法穩定,對於不同的數據特點其分類性能差別不大,健壯性比較好

缺點:樸素貝葉斯模型假設屬性之間相互獨立,這個假設在實際應用中往往是不成立的,在屬性個數比較多或者屬性之間相關性較大時,分類效果不好;

效率:

某些領域,與決策樹和神經網絡分類法相媲美;理論上貝葉斯分類具有最小錯誤率,但實踐並非如此(條件獨立

樸素貝葉斯的屬性都是離散的,對於連續值怎麼劃分屬性?如果P(aj/yi)=0怎麼辦?

假定其值是服從高斯分佈的,只要計算出樣本中在各個類別中該特徵項劃分的各個均值和標準差,帶入公式即可得到其估計值;對於P(aj/yi)=0,引入拉普拉斯校準

如果特徵屬性之間是關聯的,怎麼辦

貝葉斯網絡,Seminaive bayesian算法(半樸素貝葉斯算法)

而在屬性相關性較小時,樸素貝葉斯性能最爲良好。

改進對於這一點,有半樸素貝葉斯之類的算法通過考慮部分關聯性適度改進。


3. 決策樹


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章