二分類問題特徵選擇的常用兩個方法

二分類問題特徵選擇的常用兩個方法

             by dylanfan  at  2014-6-25

 

1)互信息。值越大,相關性越強


 

w是特徵,t是目標。反應的是特徵出現和不出現對目標值的影響。

 

 

(2) 卡方檢驗


 

其中 A = N(w = 1, t = 1)、 B = N(w = 1, t = 0)、 C = N(w = 0, t = 1)、 D = N(w =

0, t = 0)


 

卡方值越大,相關性越強。


卡方檢驗是統計假設特徵和目標值獨立不相關,然後從實際分佈結果來看是否拒絕原假設。卡方值越高,拒絕的概率越高。 

下面是個卡方值對應的分佈圖。



 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章