優化算法與特徵選擇

特徵選擇:

定義:特徵選擇( Feature Selection )也稱特徵子集選擇( Feature Subset Selection , FSS ),或屬性選擇( Attribute Selection )。是指對當前學習任務有價值的屬性稱爲相關屬性,沒有價值的屬性稱爲無關特徵,並從給定的特徵集中選擇出相關特徵子集 的過程就是特徵選擇冗餘特徵是指這些特徵可以從其他特徵中推演出來。
即從已有的M個特徵(Feature)中選擇N個特徵使得系統的特定指標最優化,是從原始特徵中選擇出一些最有效特徵以降低數據集維度的過程,是提高學習算法性能的一個重要手段,也是模式識別中關鍵的數據預處理步驟。對於一個學習算法來說,好的學習樣本是訓練模型的關鍵。
一般而言,特徵選擇可以看作一個搜索尋優問題。對大小爲n 的特徵集合, 搜索空間由2n12^{n}-1 種可能的狀態構成。Davies 等證明最小特徵子集的搜索是一個NP 問題,即除了窮舉式搜索,不能保證找到最優解。但實際應用中,當特徵數目較多的時候, 窮舉式搜索因爲計算量太大而無法應用,因此人們致力於用啓發式搜索算法尋找次優解。一般特徵選擇算法必須確定以下4 個要素:1)搜索起點和方向;2)搜索策略;3)特徵評估函數;4)停止準則
搜索起點和方向:搜索起點是算法開始搜索的狀態點,搜索方向是指評價的特徵子集產生的次序。搜索的起點和搜索方向是相關的,它們共同決定搜索策略。一般的,根據不同的搜索起點和方向,有以下4 種情況:
a)前向搜索搜索起點是空集S,依據某種評價標準,隨着搜索的進行,從未被包含在S 裏的特徵集中選擇最佳的特徵不斷加入S。
b)後向搜索搜索起點是全集S,依據某種評價標準不斷從S 中剔除最不重要的特徵,直到達到某種停止標準。
c)雙向搜索雙向搜索同時從前後兩個方向開始搜索。一般搜索到特徵子集空間的中部時,需要評價的子集將會急劇增加。當使用單向搜索時,如果搜索要通過子集空間的中部就會消耗掉大量的搜索時間,所以雙向搜索是比較常用的搜索方法。
d)隨機搜索隨機搜索從任意的起點開始,對特徵的增加和刪除也有一定的隨機性。
搜索策略:假設原始特徵集中有n 個特徵(也稱輸入變量),那麼存在2n12^n-1 個可能的非空特徵子集。搜索策略就是爲了從包含2n12^n-1 個候選解的搜索空間中尋找最優特徵子集而採取的搜索方法。搜索策略可大致分爲以下3 類:

  • 窮舉式
  • 序列搜索
  • 隨機搜索(遺傳算法(GA)模擬退火算法(SA)粒子羣優化算法(PSO))
    特徵評估函數:評價標準在特徵選擇過程中扮演着重要的角色,它是特徵選擇的依據。評價標準可以分爲兩種:一種是用於單獨地衡量每個特徵的預測能力的評價標準;另一種是用於評價某個特徵子集整體預測性能的評價標準。
    停止準則:停止準則決定什麼時候停止搜索,及算法結束。它與評價準則或搜索算法的選擇以及具體應用需求均有關聯。常見的停止準則一般有:
  • 確定算法的執行時間
  • 確定算法的執行次數,通常用於規定隨機搜索的次數
  • 設置閾值,一般是給算法的目標值設置一個評價閾值。

特徵選擇的目標

通過刪除不相關,冗餘和嘈雜的數據來減少要素數量,同時保持可接受的分類精度。FS過程的目標是最小化特性的數量,這將直接減少搜索空間/場景的大小,並幫助只使用最重要特性的機器學習技術
特徵選擇的方法:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章