中文文本分類中使用較多的特徵抽取方法包括文檔頻率DF、互信息MI、信息增益IG和CHI等。
文本分類主要分成建立特徵庫、分類模型訓練和分類測試三個步驟。
1、預處理,包括分詞和停用詞的移除。
2、選擇合適的特徵抽取方法,對每個詞條進行計算,設定合適的閾值,將特徵詞低於該閾值的詞條移除,構成特徵庫。
3、在訓練和分類模塊中,依據特徵庫對文本進行特徵提取,進而將文檔表示爲特徵向量。
4、訓練模塊生成分類模型,分類模塊根據分類模型對測試文本的類別做出測試。
每個特徵在一篇文章中的權值計算方法時TFIDF,特徵向量中的值即爲各特徵的TFIDF值。