文檔過濾

文檔過濾

原創

2018-09-03 02:37

早期的都是基於規則的分類器，使用事先設計好的一組規則，用於指明某條信息屬於垃圾信息。典型的規則有：
-英文大寫字母的過度使用
-與醫藥學相關的單詞
-過於花哨的HTML用色等

將單詞作爲文檔的特徵，其假設：某些單詞相對而言更會出現在垃圾信息中。不過特徵未必是一個個單詞，他們也可以是詞組或者短語，或者任何可以歸爲文檔中缺失或者不存在的其他東西。
如何選取單詞也是需要考慮的事情，比如文檔的題目、末尾，或者單詞的大小寫處理

利用已知的文檔，訓練文檔特徵與分類之間的關係

分類的數學描述
同的核心思想。

樸素的意思是事件A和事件B相互獨立。

分類時我們需要的就是計算某種特徵發生時，其屬於某種類別的概率。而往往某種類別中某種特徵發生的概率更容易知道，再已知某種特徵出現的概率和某種類別出現的概率，便可解了。
樸素貝葉斯分類器提供了一種簡單的分類方法，但往往我們面對的問題不是“樸素”的，該方法便不再適合了。

Fisher線性判別：
Fisher決策的出發點是：把所有的樣本都投影到一維空間，使得在投影線上最易於分類。
那什麼是最易於分類的投影面呢？我們希望這個投影面是這樣的：投影后兩類相隔儘可能遠，而對同一類的樣本又儘可能聚集。
參考：帶你搞懂樸素貝葉斯分類算法
 線性分類器之Fisher線性判別

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.