機器學習算法

1. 貝葉斯

2. 樸素貝葉斯

分類問題可做如下定義：已知集合和，確定映射規則y = f(x)，使得任意有且僅有一個,使得成立。

其中C叫做類別集合，其中每一個元素是一個類別，而I叫做項集合（特徵集合），其中每一個元素是一個待分類項，f叫做分類器。分類算法的任務就是構造分類器f。

爲什麼需要假設特徵之間相互獨立呢

特徵的聯合概率分佈總數非常多，現實生活中，往往有非常多的特徵，每一個特徵的取值也是非常之多

樸素貝葉斯法對條件概率分佈做了條件獨立性的假設，這一假設使得樸素貝葉斯法變得簡單，但有時會犧牲一定的分類準確率。

優點：算法邏輯簡單,易於實現；分類過程中時空開銷小;算法穩定，對於不同的數據特點其分類性能差別不大，健壯性比較好

缺點：樸素貝葉斯模型假設屬性之間相互獨立，這個假設在實際應用中往往是不成立的，在屬性個數比較多或者屬性之間相關性較大時，分類效果不好；

效率：

某些領域，與決策樹和神經網絡分類法相媲美；理論上貝葉斯分類具有最小錯誤率，但實踐並非如此（條件獨立）

樸素貝葉斯的屬性都是離散的，對於連續值怎麼劃分屬性？如果P(aj/yi)=0怎麼辦？

假定其值是服從高斯分佈的，只要計算出樣本中在各個類別中該特徵項劃分的各個均值和標準差，帶入公式即可得到其估計值；對於P(aj/yi)=0，引入拉普拉斯校準

如果特徵屬性之間是關聯的，怎麼辦

貝葉斯網絡，Seminaive bayesian算法（半樸素貝葉斯算法）

而在屬性相關性較小時，樸素貝葉斯性能最爲良好。

改進對於這一點，有半樸素貝葉斯之類的算法通過考慮部分關聯性適度改進。

3. 決策樹