如何知道特征的重要性

原創

2020-06-16 12:29

我们所有人可能都面临过这样的问题，即从一组数据中识别相关特征，并删除不相关或次要的特征不会对我们的目标变量产生太大的影响，从而为模型提供更好的准确性。

特征选择是机器学习中的核心概念之一，它极大地影响模型的性能。用于训练机器学习模型的数据功能对可达到的性能有很大的影响。

不相关或部分相关的特征可能会对模型性能产生负面影响。

特征选择和数据清理应该是模型设计的第一步，也是最重要的一步。

特征选择是您自动或手动选择那些对您感兴趣的预测变量或输出贡献最大的特征的过程。
数据中具有不相关的特征会降低模型的准确性，并使模型基于不相关的特征而学习。

如何选择特征以及在对数据建模之前执行特征选择有什么好处？
·减少过度拟合：更少的冗余数据意味着更少的基于噪声进行决策的机会。
·提高准确性：减少误导数据意味着提高了建模准确性。
·减少训练时间：更少的数据点降低了算法复杂性，并且训练速度更快。

我通过选择所有特征准备了一个模型，我得到了大约65％的准确度，这对预测模型来说并不是很好，在进行了一些特征选择和特征工程后，我的模型代码没有进行任何逻辑更改，我的准确度跃升至81 ％，这非常令人印象深刻

我将分享3种易于使用的功能选择技术，这些技术也会产生良好的效果。
1.单变量选择
2.功能重要性
3带有热图的相关矩阵

单变量选择
可以使用统计检验来选择与输出变量关系最密切的那些特征。
scikit-learn库提供SelectKBest类，该类可与一组不同的统计测试一起使用，以选择特定数量的功能。
下面的示例对非负特征使用卡方（chi²）统计检验，以从“移动价格范围预测数据集”中选择10个最佳特征。

功能重要性
我们可以使用模型的特征重要性属性来获取数据集中每个特征的特征重要性。
特征重要性为您提供数据中每个特征的得分，得分越高，该特征对您的输出变量的重要性或相关性就越高。
特征重要性是基于树的分类器随附的内置类，我们将使用额外的树分类器来提取数据集的前10个特征。

带有热图的相关矩阵
关联说明要素如何相互关联或与目标变量关联。
相关可以是正的（增加一个特征值增加目标变量的值）或负的（增加一个特征值减少目标变量的值）
通过热图，可以轻松地确定哪些特征与目标变量最相关，我们将使用seaborn库绘制相关特征的热图。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.