文本分類的特徵選擇方法

https://www.cnblogs.com/wangbogong/p/3251132.html
 在文本挖掘與文本分類的有關問題中,常採用特徵選擇方法。原因是文本的特徵一般都是單詞(term),具有語義信息,使用特徵選擇找出的k維子集,仍然是單詞作爲特徵,保留了語義信息,而特徵提取則找k維新空間,將會喪失了語義信息。

對於一個語料而言,我們可以統計的信息包括文檔頻率和文檔類比例,所有的特徵選擇方法均依賴於這兩個統計量,目前,文本的特徵選擇方法主要有:DF, MI, IG, CHI,WLLR,WFO六種。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章