單變量特徵選擇
對每一個特徵進行測試,衡量該特徵和響應變量之間的關係。
優點:易於運行,易於理解,通常對於理解數據有較好的結果,但其與設計的算法模型無關。
常見的方法:
1、皮爾遜相關係數
皮爾遜相關係數表示兩個變量之間的協方差和標準差的商
計算公式:
係數理解:在實踐統計中,一般只輸出兩個係數,一個是相關係數,也就是計算出來的相關係數大小,在-1到1之間;另一個是獨立樣本檢驗係數,用來檢驗樣本一致性。也可能從數學的角度理解,類似餘弦夾角。
- 0.8-1.0 極強相關
- 0.6-0.8 強相關
- 0.4-0.6 中等程度相關
- 0.2-0.4 弱相關
- 0.0-0.2 極弱相關或無相關
2、距離相關係數
基於距離協方差進行變量間相關性度量
計算公式:
相關性理解:
3、卡方檢驗
思想:通過觀察實際值與理論值的偏差來確定理論的正確與否
具體做法:假設兩個變量獨立,然後觀察實際值與理論值的偏差程度,如果偏差足夠小,則認爲是正常誤差,如果偏差大到一定程度,則認爲兩者相關。
基於模型的特徵選擇
-
方法1、基於邏輯迴歸和正則化的特徵選擇
-
邏輯迴歸中越是重要的特徵在模型中對應的係數就會越大,而跟輸出變量越是無關的特徵對應的係數就會越接近於0
-
L1正則化將係數的範數作爲懲罰項加到損失函數上,由於正則項非0,迫使那些弱的特徵所對應的係數變成0,因此L1正則化往往會使學到的模型很稀疏(係數經常爲0),這個特性使得正則化成爲一種很好的特徵選擇方法。
-
L1正則化像非正則化線性模型一樣也是不穩定的,如果特徵集合中具有相關聯的特徵,當數據發生細微變化時也有可能導致很大的模型差異。【此處需要思考:爲什麼線性特徵會讓加了L1正則化的模型不穩定?】
-
L2正則化將稀疏向量的範數添加到了損失函數中。L2正則化會讓係數的取值變得平均。對於相關聯的特徵,意味着他們能夠獲得更相近的對應係數。
-
L2正則化對於特徵選擇來說是一種穩定的模型,L2正則化對於特徵理解來說更加有用,表示能力強的特徵對應的係數是非零。
-
L2防止模型過擬合。
-
-
方法2、隨機森林特徵選擇[1] [論文]
-
mean decrease impurity(平均不純度減少,對於分類問題通常採用基尼不純度或者信息增益。對於迴歸問題,通常採用方差或者最小二乘擬合。)
-
mean decrease accuracy(平均精確度減少)
-
準確率高、魯棒性好、易於使用等優點
-
隨機森林提供了兩種特徵選擇方法:
-
-
方法3、XGBoost特徵選擇
-
某個特徵的重要性(feature score)等於它被選中爲樹節點分裂特徵的次數的和
-
-
方法4、基於深度學習的特徵選擇
-
深度學習具有很強的自動特徵抽取能力
-