機器學習_特徵挑選的方法

todo:暫時是看到一些常用場景對應的一些方法，比較亂，之後統一整理下

這篇知乎有關於特徵選擇的大綱。

特徵挑選方法

特徵選擇的優點：

提高效率，特徵越少，模型越簡單
正則化，防止特徵過多出現過擬合
去除無關特徵，保留相關性大的特徵，解釋性強

特徵選擇的缺點：

篩選特徵的計算量較大
不同特徵組合，也容易發生過擬合
容易選到無關特徵，解釋性差

線性模型

1、可以通過計算出每個特徵的重要性（即權重），然後再根據重要性的排序進行選擇。|wi|越大，表示對應特徵xi越重要，則該特徵應該被選擇。w的值可以通過對已有的數據集(xi,yi)建立線性模型而得到。

非線性

1、比如隨機森林，使用random test選取特徵。random test的做法是對於某個特徵，如果用另外一個隨機值替代它之後的表現比之前更差，則表明該特徵比較重要。隨機值選擇通常有兩種方法：一是使用uniform或者gaussian抽取隨機值替換原特徵，另一種方法通過permutation的方式將原來的所有N個樣本的第i個特徵值重新打亂分佈（相當於重新洗牌）。比較而言，第二種方法更加科學，保證了特徵替代值與原特徵的分佈是近似的（只是重新洗牌而已）。這種方法叫做permutation test（隨機排序測試），可以放在OOB驗證的時候測試。

特徵好壞相關判斷

卡方檢驗

卡方檢驗的概念。

互信息

皮爾遜相關係數

理解皮爾遜相關係數

參考

臺灣大學林軒田機器學習技法課程學習筆記10 – Random Forest

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

機器學習_特徵挑選的方法

特徵挑選方法

線性模型

非線性

特徵好壞相關判斷

卡方檢驗

互信息

皮爾遜相關係數

參考

容器中nginx無法使用同一個網絡下的容器域名

NETCore中實現一個輕量無負擔的極簡任務調度ScheduleTask

docker使用特定的網絡

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

nodejs學習07——API

避免DbContext同時在多個線程調用

Python: SunMoonTimeCalculator

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

free AI online tools All In One

C# Xmlserializer 程序集內存泄露

18_張孝祥_多線程_阻塞隊列的應用

機器學習_特徵處理

09_張孝祥_多線程_java5線程併發庫的應用_線程池

08_張孝祥_多線程_java5原子性操作類的應用

連續特徵離散化常用方法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結