优化算法与特征选择

特征选择:

定义:特征选择( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ),或属性选择( Attribute Selection )。是指对当前学习任务有价值的属性称为相关属性,没有价值的属性称为无关特征,并从给定的特征集中选择出相关特征子集 的过程就是特征选择冗余特征是指这些特征可以从其他特征中推演出来。
即从已有的M个特征(Feature)中选择N个特征使得系统的特定指标最优化,是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。对于一个学习算法来说,好的学习样本是训练模型的关键。
一般而言,特征选择可以看作一个搜索寻优问题。对大小为n 的特征集合, 搜索空间由2n12^{n}-1 种可能的状态构成。Davies 等证明最小特征子集的搜索是一个NP 问题,即除了穷举式搜索,不能保证找到最优解。但实际应用中,当特征数目较多的时候, 穷举式搜索因为计算量太大而无法应用,因此人们致力于用启发式搜索算法寻找次优解。一般特征选择算法必须确定以下4 个要素:1)搜索起点和方向;2)搜索策略;3)特征评估函数;4)停止准则
搜索起点和方向:搜索起点是算法开始搜索的状态点,搜索方向是指评价的特征子集产生的次序。搜索的起点和搜索方向是相关的,它们共同决定搜索策略。一般的,根据不同的搜索起点和方向,有以下4 种情况:
a)前向搜索搜索起点是空集S,依据某种评价标准,随着搜索的进行,从未被包含在S 里的特征集中选择最佳的特征不断加入S。
b)后向搜索搜索起点是全集S,依据某种评价标准不断从S 中剔除最不重要的特征,直到达到某种停止标准。
c)双向搜索双向搜索同时从前后两个方向开始搜索。一般搜索到特征子集空间的中部时,需要评价的子集将会急剧增加。当使用单向搜索时,如果搜索要通过子集空间的中部就会消耗掉大量的搜索时间,所以双向搜索是比较常用的搜索方法。
d)随机搜索随机搜索从任意的起点开始,对特征的增加和删除也有一定的随机性。
搜索策略:假设原始特征集中有n 个特征(也称输入变量),那么存在2n12^n-1 个可能的非空特征子集。搜索策略就是为了从包含2n12^n-1 个候选解的搜索空间中寻找最优特征子集而采取的搜索方法。搜索策略可大致分为以下3 类:

  • 穷举式
  • 序列搜索
  • 随机搜索(遗传算法(GA)模拟退火算法(SA)粒子群优化算法(PSO))
    特征评估函数:评价标准在特征选择过程中扮演着重要的角色,它是特征选择的依据。评价标准可以分为两种:一种是用於单独地衡量每个特征的预测能力的评价标准;另一种是用于评价某个特征子集整体预测性能的评价标准。
    停止准则:停止准则决定什么时候停止搜索,及算法结束。它与评价准则或搜索算法的选择以及具体应用需求均有关联。常见的停止准则一般有:
  • 确定算法的执行时间
  • 确定算法的执行次数,通常用于规定随机搜索的次数
  • 设置阈值,一般是给算法的目标值设置一个评价阈值。

特征选择的目标

通过删除不相关,冗余和嘈杂的数据来减少要素数量,同时保持可接受的分类精度。FS过程的目标是最小化特性的数量,这将直接减少搜索空间/场景的大小,并帮助只使用最重要特性的机器学习技术
特征选择的方法:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章