文檔過濾

1、早期的過濾器

早期的都是基於規則的分類器,使用事先設計好的一組規則,用於指明某條信息屬於垃圾信息。典型的規則有:
-英文大寫字母的過度使用
-與醫藥學相關的單詞
-過於花哨的HTML用色等

2、智能分類器

a. 特徵提取

將單詞作爲文檔的特徵,其假設:某些單詞相對而言更會出現在垃圾信息中。不過特徵未必是一個個單詞,他們也可以是詞組或者短語,或者任何可以歸爲文檔中缺失或者不存在的其他東西。
如何選取單詞也是需要考慮的事情,比如文檔的題目、末尾,或者單詞的大小寫處理

b. 對分類器進行訓練

利用已知的文檔,訓練文檔特徵與分類之間的關係

c. 計算概率

3、樸素貝葉斯分類器

分類的數學描述
這裏寫圖片描述同的核心思想。

a. 貝葉斯公式

這裏寫圖片描述
樸素的意思是事件A和事件B相互獨立。

b. 樸素貝葉斯分類器

這裏寫圖片描述
分類時我們需要的就是計算某種特徵發生時,其屬於某種類別的概率。而往往某種類別中某種特徵發生的概率更容易知道,再已知某種特徵出現的概率和某種類別出現的概率,便可解了。
樸素貝葉斯分類器提供了一種簡單的分類方法,但往往我們面對的問題不是“樸素”的,該方法便不再適合了。

4、費舍爾分類器

Fisher線性判別:
Fisher決策的出發點是:把所有的樣本都投影到一維空間,使得在投影線上最易於分類 。
那什麼是最易於分類的投影面呢?我們希望這個投影面是這樣的: 投影后兩類相隔儘可能遠,而對同一類的樣本又儘可能聚集。
參考:帶你搞懂樸素貝葉斯分類算法
線性分類器之Fisher線性判別

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章