1、早期的過濾器
早期的都是基於規則的分類器,使用事先設計好的一組規則,用於指明某條信息屬於垃圾信息。典型的規則有:
-英文大寫字母的過度使用
-與醫藥學相關的單詞
-過於花哨的HTML用色等
2、智能分類器
a. 特徵提取
將單詞作爲文檔的特徵,其假設:某些單詞相對而言更會出現在垃圾信息中。不過特徵未必是一個個單詞,他們也可以是詞組或者短語,或者任何可以歸爲文檔中缺失或者不存在的其他東西。
如何選取單詞也是需要考慮的事情,比如文檔的題目、末尾,或者單詞的大小寫處理
b. 對分類器進行訓練
利用已知的文檔,訓練文檔特徵與分類之間的關係
c. 計算概率
3、樸素貝葉斯分類器
分類的數學描述
同的核心思想。
a. 貝葉斯公式
樸素的意思是事件A和事件B相互獨立。
b. 樸素貝葉斯分類器
分類時我們需要的就是計算某種特徵發生時,其屬於某種類別的概率。而往往某種類別中某種特徵發生的概率更容易知道,再已知某種特徵出現的概率和某種類別出現的概率,便可解了。
樸素貝葉斯分類器提供了一種簡單的分類方法,但往往我們面對的問題不是“樸素”的,該方法便不再適合了。
4、費舍爾分類器
Fisher線性判別:
Fisher決策的出發點是:把所有的樣本都投影到一維空間,使得在投影線上最易於分類 。
那什麼是最易於分類的投影面呢?我們希望這個投影面是這樣的: 投影后兩類相隔儘可能遠,而對同一類的樣本又儘可能聚集。
參考:帶你搞懂樸素貝葉斯分類算法
線性分類器之Fisher線性判別