优化算法与特征选择

原創

2020-06-16 05:30

特征选择：

定义：特征选择( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS )，或属性选择( Attribute Selection )。是指对当前学习任务有价值的属性称为相关属性，没有价值的属性称为无关特征，并从给定的特征集中选择出相关特征子集的过程就是特征选择。冗余特征是指这些特征可以从其他特征中推演出来。
即从已有的M个特征(Feature)中选择N个特征使得系统的特定指标最优化，是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。对于一个学习算法来说,好的学习样本是训练模型的关键。
一般而言，特征选择可以看作一个搜索寻优问题。对大小为n 的特征集合，搜索空间由 $2^{n}-1$ 种可能的状态构成。Davies 等证明最小特征子集的搜索是一个NP 问题，即除了穷举式搜索，不能保证找到最优解。但实际应用中，当特征数目较多的时候，穷举式搜索因为计算量太大而无法应用，因此人们致力于用启发式搜索算法寻找次优解。一般特征选择算法必须确定以下4 个要素：1）搜索起点和方向；2）搜索策略；3）特征评估函数；4）停止准则
搜索起点和方向：搜索起点是算法开始搜索的状态点，搜索方向是指评价的特征子集产生的次序。搜索的起点和搜索方向是相关的，它们共同决定搜索策略。一般的，根据不同的搜索起点和方向，有以下4 种情况：
a）前向搜索搜索起点是空集S，依据某种评价标准，随着搜索的进行，从未被包含在S 里的特征集中选择最佳的特征不断加入S。
b）后向搜索搜索起点是全集S，依据某种评价标准不断从S 中剔除最不重要的特征，直到达到某种停止标准。
c）双向搜索双向搜索同时从前后两个方向开始搜索。一般搜索到特征子集空间的中部时，需要评价的子集将会急剧增加。当使用单向搜索时，如果搜索要通过子集空间的中部就会消耗掉大量的搜索时间，所以双向搜索是比较常用的搜索方法。
d）随机搜索随机搜索从任意的起点开始，对特征的增加和删除也有一定的随机性。
搜索策略：假设原始特征集中有n 个特征（也称输入变量），那么存在 $2^n-1$ 个可能的非空特征子集。搜索策略就是为了从包含 $2^n-1$ 个候选解的搜索空间中寻找最优特征子集而采取的搜索方法。搜索策略可大致分为以下3 类：

穷举式
序列搜索
随机搜索（遗传算法(GA)模拟退火算法(SA)粒子群优化算法(PSO)）
特征评估函数：评价标准在特征选择过程中扮演着重要的角色，它是特征选择的依据。评价标准可以分为两种：一种是用於单独地衡量每个特征的预测能力的评价标准；另一种是用于评价某个特征子集整体预测性能的评价标准。
停止准则：停止准则决定什么时候停止搜索，及算法结束。它与评价准则或搜索算法的选择以及具体应用需求均有关联。常见的停止准则一般有：
确定算法的执行时间
确定算法的执行次数，通常用于规定随机搜索的次数
设置阈值，一般是给算法的目标值设置一个评价阈值。

特征选择的目标

通过删除不相关，冗余和嘈杂的数据来减少要素数量，同时保持可接受的分类精度。FS过程的目标是最小化特性的数量，这将直接减少搜索空间/场景的大小，并帮助只使用最重要特性的机器学习技术
特征选择的方法：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

优化算法与特征选择

特征选择：

特征选择的目标

[转帖]使用NMT和pmap解决JVM资源泄漏问题原创

Python实现大麦网抢票的四大关键技术点解析

Python 安装库指令大全

salesforce零基础学习（一百三十八）零碎知识点小总结（十）

一款开源的.NET程序集反编译、编辑和调试神器

关于接口协议，你必须要知道这些！

基于 Milvus + LlamaIndex 实现高级 RAG

【2024-05-21】以茶会友

優化算法與特徵選擇

矩陣快速冪之整數快速冪

hdu 1757 A Simple Math Problem（矩陣快速冪）

hud 1298 T9(字典樹 + DFS詳解)

粗糙集基本理論知識——入門必看

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結