人智导(九):回归方法的精化
标准回归的不足
- 标准的回归公式:
- 观测变量(特征)越多,方差越大
- 需要训练数据量n>>p才能获得较低方差
- 回归模型的精度和解释性能改进:低方差(泛化)、低偏差(准确)
- 不太相关的观测变量会导致模型的复杂性
- 改进思路:选择关键的观测变量(特征)
特征(子集)选择
- 特征(子集)选择:从p个观测变量中选择出与较相关的子集,通过这个子集实现回归模型
- 最佳子集选择算法:
- 对于:
- 构建出所有的个回归模型
- 筛选出组合中均方误差RSS最小的模型
- 从得到的模型中通过交叉验证再宣传预测均方误差最小的模型,所对应的即为最佳子集。
- 对于:
- 特点:简单而低效,需要从中搜索出一个最佳,不适合处理很大的情况
- 前向选择回归算法:
- 对于:
- 构建所有的p-k个回归模型,通过逐次累加一个相应变量的方式
- 在这p-k个模型中筛选出均方误差RSS最小的模型
- 从得到的模型中通过交叉验证再选出预测均方误差最小的模型,即为目标子集
- 对于:
- 特点:仅需从个模型空间中搜索出目标子集,但不能保证得到的子集是最佳的(模型RSS最小)
示例:
- 数据集有三个观测变量(p=3)
- 最佳的1-变量模型包含;最佳的2-变量模型包含和
- 前向选择算法不能找出最佳的2-变量模型,因其不包括最佳的1-变量模型
子集选择是优化模型的过程: - 选择所有的观测变量,总是有最小RSS(偏差)但方差最大
- 减少观测变量(子集选择),提升模型泛化能力(test MSE)
- 方差大则过拟合,偏差大则欠拟合(准确性差)
正则化方法
- 回归公式: 估算系数通过最小化RSS:
- 正则化方法:
- 使用所有的个观测变量,约束变量的系数使RSS取值尽可能趋于零
- 回归系数的取值限定在一个小范围内,将有效降低模型的方差
岭回归(Ridge Regression)方法
岭回归方法:
- 类似于最小二乘法,但隙数的估算通过最小化公式:
- 其中为调试参数(超参数):
- 当,约束不起作用,如同标准的线性回归
- 当,约束影响越大,系数尽可能小
岭回归系数的正则化(标准化):
- 范数:
- 当增加,降低,如图
- 一般地,所有变量需被标准化:
- 岭回归方法:是一种平衡“方差-偏差”技术
- 交叉验证test MSE选择最优的
- 的增加,导致方差降低而偏差上升
- 如下图,绿线为方差,黑线为偏差,红线为岭回归的test MSE
Lasso回归算法
Lasso回归算法:
- 类似于最小二乘法,但系数的估算通过最小化公式:
- 其中为调试参数:
- 当,约束不起作用,如同标准的线性回归
- 当,约束影响越大,系数将尽可能小
Lasso系数的正则化(标准化):
- 范数:
- 当增加,降低;增加足够大,会使某些变量系数为0