【ML】特徵選擇方法

單變量特徵選擇

對每一個特徵進行測試,衡量該特徵和響應變量之間的關係。

優點:易於運行,易於理解,通常對於理解數據有較好的結果,但其與設計的算法模型無關。

常見的方法:

1、皮爾遜相關係數

皮爾遜相關係數表示兩個變量之間的協方差和標準差的商

計算公式:

係數理解:在實踐統計中,一般只輸出兩個係數,一個是相關係數,也就是計算出來的相關係數大小,在-1到1之間;另一個是獨立樣本檢驗係數,用來檢驗樣本一致性。也可能從數學的角度理解,類似餘弦夾角。

  • 0.8-1.0 極強相關
  • 0.6-0.8 強相關
  • 0.4-0.6 中等程度相關
  • 0.2-0.4 弱相關
  • 0.0-0.2 極弱相關或無相關

2、距離相關係數

基於距離協方差進行變量間相關性度量

計算公式:

相關性理解:

3、卡方檢驗

思想:通過觀察實際值與理論值的偏差來確定理論的正確與否

具體做法:假設兩個變量獨立,然後觀察實際值與理論值的偏差程度,如果偏差足夠小,則認爲是正常誤差,如果偏差大到一定程度,則認爲兩者相關。

基於模型的特徵選擇

  • 方法1、基於邏輯迴歸和正則化的特徵選擇

    • 邏輯迴歸中越是重要的特徵在模型中對應的係數就會越大,而跟輸出變量越是無關的特徵對應的係數就會越接近於0

    • L1正則化將係數的範數作爲懲罰項加到損失函數上,由於正則項非0,迫使那些弱的特徵所對應的係數變成0,因此L1正則化往往會使學到的模型很稀疏(係數經常爲0),這個特性使得正則化成爲一種很好的特徵選擇方法。

    • L1正則化像非正則化線性模型一樣也是不穩定的,如果特徵集合中具有相關聯的特徵,當數據發生細微變化時也有可能導致很大的模型差異。【此處需要思考:爲什麼線性特徵會讓加了L1正則化的模型不穩定?】

    • L2正則化將稀疏向量的範數添加到了損失函數中。L2正則化會讓係數的取值變得平均。對於相關聯的特徵,意味着他們能夠獲得更相近的對應係數。

    • L2正則化對於特徵選擇來說是一種穩定的模型,L2正則化對於特徵理解來說更加有用,表示能力強的特徵對應的係數是非零。

    • L2防止模型過擬合。

  • 方法2、隨機森林特徵選擇[1]  [論文]

    • mean decrease impurity(平均不純度減少,對於分類問題通常採用基尼不純度或者信息增益。對於迴歸問題,通常採用方差或者最小二乘擬合。)

    • mean decrease accuracy(平均精確度減少)

    • 準確率高、魯棒性好、易於使用等優點

    • 隨機森林提供了兩種特徵選擇方法:

  • 方法3、XGBoost特徵選擇

    • 某個特徵的重要性(feature score)等於它被選中爲樹節點分裂特徵的次數的和

  • 方法4、基於深度學習的特徵選擇

    • 深度學習具有很強的自動特徵抽取能力

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章