todo:暫時是看到一些常用場景對應的一些方法,比較亂,之後統一整理下
這篇知乎有關於特徵選擇的大綱。
特徵挑選方法
特徵選擇的優點:
-
提高效率,特徵越少,模型越簡單
-
正則化,防止特徵過多出現過擬合
-
去除無關特徵,保留相關性大的特徵,解釋性強
特徵選擇的缺點:
-
篩選特徵的計算量較大
-
不同特徵組合,也容易發生過擬合
-
容易選到無關特徵,解釋性差
線性模型
1、可以通過計算出每個特徵的重要性(即權重),然後再根據重要性的排序進行選擇。|wi|越大,表示對應特徵xi越重要,則該特徵應該被選擇。w的值可以通過對已有的數據集(xi,yi)建立線性模型而得到。
非線性
1、比如隨機森林,使用random test選取特徵。random test的做法是對於某個特徵,如果用另外一個隨機值替代它之後的表現比之前更差,則表明該特徵比較重要。隨機值選擇通常有兩種方法:一是使用uniform或者gaussian抽取隨機值替換原特徵,另一種方法通過permutation的方式將原來的所有N個樣本的第i個特徵值重新打亂分佈(相當於重新洗牌)。比較而言,第二種方法更加科學,保證了特徵替代值與原特徵的分佈是近似的(只是重新洗牌而已)。這種方法叫做permutation test(隨機排序測試),可以放在OOB驗證的時候測試。
特徵好壞相關判斷
卡方檢驗
卡方檢驗的概念。