https://www.cnblogs.com/wangbogong/p/3251132.html
在文本挖掘與文本分類的有關問題中,常採用特徵選擇方法。原因是文本的特徵一般都是單詞(term),具有語義信息,使用特徵選擇找出的k維子集,仍然是單詞作爲特徵,保留了語義信息,而特徵提取則找k維新空間,將會喪失了語義信息。
對於一個語料而言,我們可以統計的信息包括文檔頻率和文檔類比例,所有的特徵選擇方法均依賴於這兩個統計量,目前,文本的特徵選擇方法主要有:DF, MI, IG, CHI,WLLR,WFO六種。