机器学习_特征挑选的方法

todo:暂时是看到一些常用场景对应的一些方法,比较乱,之后统一整理下

这篇知乎有关于特征选择的大纲。

特征挑选方法

特征选择的优点:

  • 提高效率,特征越少,模型越简单

  • 正则化,防止特征过多出现过拟合

  • 去除无关特征,保留相关性大的特征,解释性强

特征选择的缺点:

  • 筛选特征的计算量较大

  • 不同特征组合,也容易发生过拟合

  • 容易选到无关特征,解释性差

线性模型

1、可以通过计算出每个特征的重要性(即权重),然后再根据重要性的排序进行选择。|wi|越大,表示对应特征xi越重要,则该特征应该被选择。w的值可以通过对已有的数据集(xi,yi)建立线性模型而得到。

非线性

1、比如随机森林,使用random test选取特征。random test的做法是对于某个特征,如果用另外一个随机值替代它之后的表现比之前更差,则表明该特征比较重要。随机值选择通常有两种方法:一是使用uniform或者gaussian抽取随机值替换原特征,另一种方法通过permutation的方式将原来的所有N个样本的第i个特征值重新打乱分布(相当于重新洗牌)。比较而言,第二种方法更加科学,保证了特征替代值与原特征的分布是近似的(只是重新洗牌而已)。这种方法叫做permutation test(随机排序测试),可以放在OOB验证的时候测试。

特征好坏相关判断

卡方检验

卡方检验的概念

互信息

互信息

皮尔逊相关系数

理解皮尔逊相关系数

参考

台湾大学林轩田机器学习技法课程学习笔记10 – Random Forest

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章