前言

特徵選擇是數據挖掘人物中相當重要的一步，選擇地好既能去除冗餘特徵減少不必要的計算，又能增加數據的表達性，增加算法的準確率。特徵選擇的方法很多，需要一個蘿蔔一個坑，所以需要找到最適合當前任務的特徵選擇方法。這篇集中總結特徵選擇能用到的一些算法，對於API不會講其應用方法。

特徵選擇

1、畫圖
2、pearsonr相關係數
3、Spearmanr相關係數
4、Kendall Rank（肯德爾等級）相關係數
5、方差和協方差
6、互信息和信息熵
這些具體數學原理見我的另一篇博客述
5、卡方
6、 F檢驗（計算各個特徵的F值和P值，選擇F值大的或者P值小的）
7、遞歸特徵消除(Recursive Feature Elimination,RFE)
簡單解釋下：遞歸特徵消除的主要思想是反覆的構建模型（如SVM或者回歸模型），然後選出最好的（或者最差的）特徵（可以根據係數來選），把選出來的特徵放到一邊，然後在剩餘的特徵上重複這個過程，直到遍歷所有特徵。這個過程中特徵被消除的次序就是特徵的排序。因此這是一種尋找最優特徵子集的貪心算法。Scikit-Learn提供了RFE包，可以用於特徵消除，還提供了RFECV，可以通過交叉驗證來對特徵進行排序。
8、穩定性選擇(Stability Selection)
穩定性選擇是一種基於二次抽樣和選擇算法相結合的較新的方法，選擇算法可以使迴歸、SVM或者其他類似的方法。他的主要思想是在不同的數據子集和特徵子集上運行特徵選擇算法，不斷重複，最終彙總特徵選擇結果。比如，可以統計某個特徵被認爲是重要特徵的頻率（被選爲重要特徵的次數除以他所在的子集被測試的次數）。在理想情況下，重要特徵的得分會接近100%。稍微弱一點的特徵得分會是非0的數，而最無用的特徵得分將會接近於0.Sciki0Learn在隨機Lasso和隨機邏輯迴歸中有隊穩定性選擇的實現。

目前爲止，只使用過這些方法，後期還會繼續補充。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

數據挖掘——特徵選擇

數據挖掘——特徵選擇

前言

特徵選擇

容器中nginx無法使用同一個網絡下的容器域名

Python: SunMoonTimeCalculator

NETCore中實現一個輕量無負擔的極簡任務調度ScheduleTask

docker使用特定的網絡

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

nodejs學習07——API

避免DbContext同時在多個線程調用

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

機器學習——分類算法之決策樹

機器學習——分類算法之感知機

數據挖掘——關聯規則算法之FP-tree

數據挖掘——關聯規則算法之Apriori

數據挖掘——社區發現算法之LPA算法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結