【ML】特徵選擇方法

原創

2020-06-26 21:54

單變量特徵選擇

對每一個特徵進行測試，衡量該特徵和響應變量之間的關係。

優點：易於運行，易於理解，通常對於理解數據有較好的結果，但其與設計的算法模型無關。

常見的方法：

1、皮爾遜相關係數

皮爾遜相關係數表示兩個變量之間的協方差和標準差的商

計算公式：

係數理解：在實踐統計中,一般只輸出兩個係數,一個是相關係數,也就是計算出來的相關係數大小,在-1到1之間;另一個是獨立樣本檢驗係數,用來檢驗樣本一致性。也可能從數學的角度理解，類似餘弦夾角。

0.8-1.0 極強相關
0.6-0.8 強相關
0.4-0.6 中等程度相關
0.2-0.4 弱相關
0.0-0.2 極弱相關或無相關

2、距離相關係數

基於距離協方差進行變量間相關性度量

計算公式：

相關性理解：

3、卡方檢驗

思想：通過觀察實際值與理論值的偏差來確定理論的正確與否

具體做法：假設兩個變量獨立，然後觀察實際值與理論值的偏差程度，如果偏差足夠小，則認爲是正常誤差，如果偏差大到一定程度，則認爲兩者相關。

基於模型的特徵選擇

方法1、基於邏輯迴歸和正則化的特徵選擇
- 邏輯迴歸中越是重要的特徵在模型中對應的係數就會越大，而跟輸出變量越是無關的特徵對應的係數就會越接近於0
- L1正則化將係數的範數作爲懲罰項加到損失函數上，由於正則項非0，迫使那些弱的特徵所對應的係數變成0，因此L1正則化往往會使學到的模型很稀疏（係數經常爲0），這個特性使得正則化成爲一種很好的特徵選擇方法。
- L1正則化像非正則化線性模型一樣也是不穩定的，如果特徵集合中具有相關聯的特徵，當數據發生細微變化時也有可能導致很大的模型差異。【此處需要思考：爲什麼線性特徵會讓加了L1正則化的模型不穩定？】
- L2正則化將稀疏向量的範數添加到了損失函數中。L2正則化會讓係數的取值變得平均。對於相關聯的特徵，意味着他們能夠獲得更相近的對應係數。
- L2正則化對於特徵選擇來說是一種穩定的模型，L2正則化對於特徵理解來說更加有用，表示能力強的特徵對應的係數是非零。
- L2防止模型過擬合。
方法2、隨機森林特徵選擇[1] [論文]
- mean decrease impurity（平均不純度減少，對於分類問題通常採用基尼不純度或者信息增益。對於迴歸問題，通常採用方差或者最小二乘擬合。）
- mean decrease accuracy（平均精確度減少）
- 準確率高、魯棒性好、易於使用等優點
- 隨機森林提供了兩種特徵選擇方法：
方法3、XGBoost特徵選擇
- 某個特徵的重要性（feature score）等於它被選中爲樹節點分裂特徵的次數的和
方法4、基於深度學習的特徵選擇
- 深度學習具有很強的自動特徵抽取能力

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【ML】特徵選擇方法

單變量特徵選擇

1、皮爾遜相關係數

2、距離相關係數

3、卡方檢驗

基於模型的特徵選擇

方法1、基於邏輯迴歸和正則化的特徵選擇

方法2、隨機森林特徵選擇[1] [論文]

方法3、XGBoost特徵選擇

方法4、基於深度學習的特徵選擇

Python 爬蟲：Spring Boot 反爬蟲的成功案例

京東科技數字化營銷能力的演進與最佳實踐| 京東雲技術團隊

mac os 新系統配置—— anaconda安裝及管理

【go】學習筆記

【LeetCode】bash統計詞頻率——awk、sort

工作中常用到的一些linux命令

【Python】多線程及例子

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結