數據挖掘——特徵選擇

數據挖掘——特徵選擇

前言

特徵選擇是數據挖掘人物中相當重要的一步,選擇地好既能去除冗餘特徵減少不必要的計算,又能增加數據的表達性,增加算法的準確率。特徵選擇的方法很多,需要一個蘿蔔一個坑,所以需要找到最適合當前任務的特徵選擇方法。這篇集中總結特徵選擇能用到的一些算法,對於API不會講其應用方法。

特徵選擇

1、 畫圖
2、pearsonr相關係數
3、Spearmanr相關係數
4、Kendall Rank(肯德爾等級)相關係數
5、方差和協方差
6、互信息和信息熵
這些具體數學原理見我的另一篇博客述
5、卡方
6、 F檢驗(計算各個特徵的F值和P值,選擇F值大的或者P值小的)
7、遞歸特徵消除(Recursive Feature Elimination,RFE)
簡單解釋下:遞歸特徵消除的主要思想是反覆的構建模型(如SVM或者回歸模型),然後選出最好的(或者最差的)特徵(可以根據係數來選),把選出來的特徵放到一邊,然後在剩餘的特徵上重複這個過程,直到遍歷所有特徵。這個過程中特徵被消除的次序就是特徵的排序。因此這是一種尋找最優特徵子集的貪心算法。Scikit-Learn提供了RFE包,可以用於特徵消除,還提供了RFECV,可以通過交叉驗證來對特徵進行排序。
8、穩定性選擇(Stability Selection)
穩定性選擇是一種基於二次抽樣和選擇算法相結合的較新的方法,選擇算法可以使迴歸、SVM或者其他類似的方法。他的主要思想是在不同的數據子集和特徵子集上運行特徵選擇算法,不斷重複,最終彙總特徵選擇結果。比如,可以統計某個特徵被認爲是重要特徵的頻率(被選爲重要特徵的次數除以他所在的子集被測試的次數)。在理想情況下,重要特徵的得分會接近100%。稍微弱一點的特徵得分會是非0的數,而最無用的特徵得分將會接近於0.Sciki0Learn在隨機Lasso和隨機邏輯迴歸中有隊穩定性選擇的實現。

目前爲止,只使用過這些方法,後期還會繼續補充。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章