優化算法與特徵選擇

原創

2020-06-16 05:30

特徵選擇：

定義：特徵選擇( Feature Selection )也稱特徵子集選擇( Feature Subset Selection , FSS )，或屬性選擇( Attribute Selection )。是指對當前學習任務有價值的屬性稱爲相關屬性，沒有價值的屬性稱爲無關特徵，並從給定的特徵集中選擇出相關特徵子集的過程就是特徵選擇。冗餘特徵是指這些特徵可以從其他特徵中推演出來。
即從已有的M個特徵(Feature)中選擇N個特徵使得系統的特定指標最優化，是從原始特徵中選擇出一些最有效特徵以降低數據集維度的過程,是提高學習算法性能的一個重要手段,也是模式識別中關鍵的數據預處理步驟。對於一個學習算法來說,好的學習樣本是訓練模型的關鍵。
一般而言，特徵選擇可以看作一個搜索尋優問題。對大小爲n 的特徵集合，搜索空間由 $2^{n}-1$ 種可能的狀態構成。Davies 等證明最小特徵子集的搜索是一個NP 問題，即除了窮舉式搜索，不能保證找到最優解。但實際應用中，當特徵數目較多的時候，窮舉式搜索因爲計算量太大而無法應用，因此人們致力於用啓發式搜索算法尋找次優解。一般特徵選擇算法必須確定以下4 個要素：1）搜索起點和方向；2）搜索策略；3）特徵評估函數；4）停止準則
搜索起點和方向：搜索起點是算法開始搜索的狀態點，搜索方向是指評價的特徵子集產生的次序。搜索的起點和搜索方向是相關的，它們共同決定搜索策略。一般的，根據不同的搜索起點和方向，有以下4 種情況：
a）前向搜索搜索起點是空集S，依據某種評價標準，隨着搜索的進行，從未被包含在S 裏的特徵集中選擇最佳的特徵不斷加入S。
b）後向搜索搜索起點是全集S，依據某種評價標準不斷從S 中剔除最不重要的特徵，直到達到某種停止標準。
c）雙向搜索雙向搜索同時從前後兩個方向開始搜索。一般搜索到特徵子集空間的中部時，需要評價的子集將會急劇增加。當使用單向搜索時，如果搜索要通過子集空間的中部就會消耗掉大量的搜索時間，所以雙向搜索是比較常用的搜索方法。
d）隨機搜索隨機搜索從任意的起點開始，對特徵的增加和刪除也有一定的隨機性。
搜索策略：假設原始特徵集中有n 個特徵（也稱輸入變量），那麼存在 $2^n-1$ 個可能的非空特徵子集。搜索策略就是爲了從包含 $2^n-1$ 個候選解的搜索空間中尋找最優特徵子集而採取的搜索方法。搜索策略可大致分爲以下3 類：

窮舉式
序列搜索
隨機搜索（遺傳算法(GA)模擬退火算法(SA)粒子羣優化算法(PSO)）
特徵評估函數：評價標準在特徵選擇過程中扮演着重要的角色，它是特徵選擇的依據。評價標準可以分爲兩種：一種是用於單獨地衡量每個特徵的預測能力的評價標準；另一種是用於評價某個特徵子集整體預測性能的評價標準。
停止準則：停止準則決定什麼時候停止搜索，及算法結束。它與評價準則或搜索算法的選擇以及具體應用需求均有關聯。常見的停止準則一般有：
確定算法的執行時間
確定算法的執行次數，通常用於規定隨機搜索的次數
設置閾值，一般是給算法的目標值設置一個評價閾值。

特徵選擇的目標

通過刪除不相關，冗餘和嘈雜的數據來減少要素數量，同時保持可接受的分類精度。FS過程的目標是最小化特性的數量，這將直接減少搜索空間/場景的大小，並幫助只使用最重要特性的機器學習技術
特徵選擇的方法：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

優化算法與特徵選擇

特徵選擇：

特徵選擇的目標

Spring Cloud 部署時如何使用 Kubernetes 作爲註冊中心和配置中心

優化算法與特徵選擇

矩陣快速冪之整數快速冪

hdu 1757 A Simple Math Problem（矩陣快速冪）

hud 1298 T9(字典樹 + DFS詳解)

粗糙集基本理論知識——入門必看

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結