特徵選擇和特徵抽取

特徵提取算法分爲特徵選擇特徵抽取兩大類。
特徵選擇:不改變原始的特徵數據,只是選擇一部分出來。其中常用的特徵選擇算法有:
(1)DF(Document Frequency) 文檔頻率
DF:統計特徵詞出現的文檔數量,用來衡量某個特徵詞的重要性
(2)MI(Mutual Information) 互信息法
互信息法用於衡量特徵詞與文檔類別直接的信息量。
如果某個特徵詞的頻率很低,那麼互信息得分就會很大,因此互信息法傾向"低頻"的特徵詞。相對的詞頻很高的詞,得分就會變低,如果這詞攜帶了很高的信息量,互信息法就會變得低效。
(3)(Information Gain) 信息增益法
通過某個特徵詞的缺失與存在的兩種情況下,語料中前後信息的增加,衡量某個特徵詞的重要性。
(4)CHI(Chi-square) 卡方檢驗法
利用了統計學中的"假設檢驗"的基本思想:首先假設特徵詞與類別直接是不相關的
如果利用CHI分佈計算出的檢驗值偏離閾值越大,那麼更有信心否定原假設,接受原假設的備則假設:特徵詞與類別有着很高的關聯度。
(5)WLLR(Weighted Log Likelihood Ration)加權對數似然
(6)WFO(Weighted Frequency and Odds)加權頻率和可能性
特徵抽取:進行了特徵由高維到低維的映射,特徵實際上產生了一定的變化。常用的算法爲主成分分析(PCA)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章