第6章 文檔過濾
1、前期準備
- 抽取特徵,整一個就是Feature Engineering=。=簡單的比如分詞統計單詞、詞組個數,大小寫等。
- 統計特徵在各分類中的數量,每個分類中的文檔數量。
- 計算條件概率,爲了避免出現有些單詞只出現某一類,導致這些單詞在其他類中的概率爲0,進行一些概率改動。常用的可以用Laplace平滑,這本書提出了加權的概率值。
2、樸素分類器
樸素貝葉斯假設前提:條件概率獨立
P(Category|Document)=P(Document|Category)∗P(Category)P(Document) 對於分母,因爲每次計算時分母值都一樣,所以分母的計算可忽略。
將文檔中所有單詞的條件概率相乘來表示這篇文檔的條件概率。
- 選擇分類:在垃圾信息過濾的例子中,避免將普通郵件當成垃圾郵件要比截獲每一封垃圾郵件更爲重要。爲了解決這一問題,可以爲每個分類定義域一個最小閾值,對於一封要被劃入到某個分類的新郵件而言,其概率與針對所有其他分類的概率相比,必須大於某個制定的數值才行。
3、費舍爾方法
費舍爾方法將直接計算當一篇文檔出現某個特徵時,該文檔屬於某個分類的可能性。進行歸一化,然後將所有歸一化概率相乘,取自然對數,再將結果乘以-2。最後分類。
4、補充
貝葉斯分類器之所以經常被用於文檔分類的原因是與其他方法相比它所要求的計算資源更少,但樸素分類器無法捕獲特徵之間的相互依賴性,而神經網絡可以。