機器學習_特徵挑選的方法

todo:暫時是看到一些常用場景對應的一些方法,比較亂,之後統一整理下

這篇知乎有關於特徵選擇的大綱。

特徵挑選方法

特徵選擇的優點:

  • 提高效率,特徵越少,模型越簡單

  • 正則化,防止特徵過多出現過擬合

  • 去除無關特徵,保留相關性大的特徵,解釋性強

特徵選擇的缺點:

  • 篩選特徵的計算量較大

  • 不同特徵組合,也容易發生過擬合

  • 容易選到無關特徵,解釋性差

線性模型

1、可以通過計算出每個特徵的重要性(即權重),然後再根據重要性的排序進行選擇。|wi|越大,表示對應特徵xi越重要,則該特徵應該被選擇。w的值可以通過對已有的數據集(xi,yi)建立線性模型而得到。

非線性

1、比如隨機森林,使用random test選取特徵。random test的做法是對於某個特徵,如果用另外一個隨機值替代它之後的表現比之前更差,則表明該特徵比較重要。隨機值選擇通常有兩種方法:一是使用uniform或者gaussian抽取隨機值替換原特徵,另一種方法通過permutation的方式將原來的所有N個樣本的第i個特徵值重新打亂分佈(相當於重新洗牌)。比較而言,第二種方法更加科學,保證了特徵替代值與原特徵的分佈是近似的(只是重新洗牌而已)。這種方法叫做permutation test(隨機排序測試),可以放在OOB驗證的時候測試。

特徵好壞相關判斷

卡方檢驗

卡方檢驗的概念

互信息

互信息

皮爾遜相關係數

理解皮爾遜相關係數

參考

臺灣大學林軒田機器學習技法課程學習筆記10 – Random Forest

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章