中文文本分類流程

中文文本分類中使用較多的特徵抽取方法包括文檔頻率DF、互信息MI、信息增益IG和CHI等。


文本分類主要分成建立特徵庫、分類模型訓練和分類測試三個步驟。

1、預處理,包括分詞和停用詞的移除。

2、選擇合適的特徵抽取方法,對每個詞條進行計算,設定合適的閾值,將特徵詞低於該閾值的詞條移除,構成特徵庫。

3、在訓練和分類模塊中,依據特徵庫對文本進行特徵提取,進而將文檔表示爲特徵向量。

4、訓練模塊生成分類模型,分類模塊根據分類模型對測試文本的類別做出測試。


每個特徵在一篇文章中的權值計算方法時TFIDF,特徵向量中的值即爲各特徵的TFIDF值。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章