二分類問題特徵選擇的常用兩個方法
by dylanfan at 2014-6-25
(1)互信息。值越大,相關性越強
w是特徵,t是目標。反應的是特徵出現和不出現對目標值的影響。
(2) 卡方檢驗
其中 A = N(w = 1, t = 1)、 B = N(w = 1, t = 0)、 C = N(w = 0, t = 1)、 D = N(w =
0, t = 0)
卡方值越大,相關性越強。
卡方檢驗是統計假設特徵和目標值獨立不相關,然後從實際分佈結果來看是否拒絕原假設。卡方值越高,拒絕的概率越高。
下面是個卡方值對應的分佈圖。