人智导(九):回归方法的精化

人智导(九):回归方法的精化

标准回归的不足

  • 标准的回归公式:f(X)=β0+β1X1+β2X2++βpXpf(X) = \beta_0 +\beta_1X_1 +\beta_2X_2+\dots +\beta_pX_p
  • 观测变量(特征)越多,方差越大
  • 需要训练数据量n>>p才能获得较低方差
  • 回归模型的精度和解释性能改进:低方差(泛化)、低偏差(准确)
  • 不太相关的观测变量会导致模型的复杂性
  • 改进思路:选择关键的观测变量(特征)

特征(子集)选择

  • 特征(子集)选择:从p个观测变量中(X1,X2,,Xp)(X_1,X_2,\dots ,X_p)选择出与YY较相关的子集,通过这个子集实现回归模型
  • 最佳子集选择算法:
    • 对于k=1,2,,pk=1,2,\dots ,p
      • 构建出所有的CpkC^k_p个回归模型
      • 筛选出CpkC^k_p组合中均方误差RSS最小的模型MkM_k
    • 从得到的M1,M2,,MpM_1,M_2,\dots ,M_p模型中通过交叉验证再宣传预测均方误差最小的模型,所对应的即为最佳子集。
  • 特点:简单而低效,需要从2p2^p中搜索出一个最佳,不适合处理pp很大的情况
  • 前向选择回归算法:
    • 对于k=0,1,2,,p1k=0,1,2,\dots ,p-1
      • 构建所有的p-k个回归模型,通过逐次累加一个相应变量的方式
      • 在这p-k个模型中筛选出均方误差RSS最小的模型Mk+1M_{k+1}
    • 从得到的M1,M2,,MpM_1,M_2,\dots ,M_p模型中通过交叉验证再选出预测均方误差最小的模型,即为目标子集
  • 特点:仅需从p(p+1)2\frac{p(p+1)}{2}个模型空间中搜索出目标子集,但不能保证得到的子集是最佳的(模型RSS最小)

示例:

  • 数据集有三个观测变量X1,X2,X3X_1,X_2,X_3(p=3)
  • 最佳的1-变量模型包含X1X_1;最佳的2-变量模型包含X2X_2X3X_3
  • 前向选择算法不能找出最佳的2-变量模型,因其不包括最佳的1-变量模型
    子集选择是优化模型的过程:
  • 选择所有的观测变量,总是有最小RSS(偏差)但方差最大
  • 减少观测变量(子集选择),提升模型泛化能力(test MSE)
  • 方差大则过拟合,偏差大则欠拟合(准确性差)

正则化方法

  • 回归公式: f(X)=β0+β1X1+β2X2++βpXpf(X) = \beta_0+\beta_1X_1+\beta_2X_2+\dots +\beta_pX_p 估算系数β0,β1,,βp\beta_0,\beta_1,\dots ,\beta_p通过最小化RSS:RSS=Σi=1n(yiβ0Σj=1pβjXij)2RSS = \Sigma^n_{i=1}(y_i -\beta_0-\Sigma^p_{j=1}\beta_jX_{ij})^2
  • 正则化方法:
    • 使用所有的pp个观测变量,约束变量的系数β0,β1,,βp\beta_0, \beta_1 ,\dots ,\beta_p使RSS取值尽可能趋于零
    • 回归系数的取值限定在一个小范围内,将有效降低模型的方差

岭回归(Ridge Regression)方法

岭回归方法:
在这里插入图片描述

  • 类似于最小二乘法,但隙数的估算β^R\hat{\beta}^R通过最小化公式:Σi=1n(yiβ0Σj=1pβjXij)2 + λΣj=1pβj2=RSS + λΣj=1pβj2\Sigma^n_{i=1}(y_i-\beta_0-\Sigma^p_{j=1}\beta_jX_{ij})^2 ~+~\lambda\Sigma^p_{j=1}\beta^2_j = \\RSS~+~\lambda\Sigma^p_{j=1}\beta^2_j
  • 其中λ0\lambda \ge 0为调试参数(超参数):
    • λ=0\lambda = 0,约束不起作用,如同标准的线性回归
    • λ\lambda \to \infty,约束影响越大,系数β^R\hat{\beta}^R尽可能小

岭回归系数的正则化(标准化):

  • L2L_2范数:β2=Σj=1pβj2\Vert \beta\Vert _2 = \sqrt{\Sigma^p_{j=1}\beta^2_j}
  • λ\lambda增加,L2L_2降低,如图

在这里插入图片描述

  • 一般地,所有变量需被标准化:x~ij=xij1nΣi=1n(xijxˉj)2\tilde{x}_{ij} = \frac{x_{ij}}{\sqrt{\frac{1}{n}\Sigma^n_{i=1}(x_{ij}-\bar{x}_j)^2}}
  • 岭回归方法:是一种平衡“方差-偏差”技术
    • 交叉验证test MSE选择最优的λ\lambda
    • λ\lambda的增加,导致方差降低而偏差上升
    • 如下图,绿线为方差,黑线为偏差,红线为岭回归的test MSE
      在这里插入图片描述

Lasso回归算法

Lasso回归算法:
在这里插入图片描述

  • 类似于最小二乘法,但系数的估算β^L\hat{\beta}^L通过最小化公式: Σi=1n(yiβ0Σj=1pβjxij)2 + λΣj=1pβj=RSS + λΣj=1pβj\Sigma^n_{i=1}(y_i-\beta_0-\Sigma^p_{j=1}\beta_jx_{ij})^2~+~\lambda\Sigma^p_{j=1}|\beta_j|\\=RSS~+~\lambda\Sigma^p_{j=1}|\beta_j|
  • 其中λ0\lambda \ge 0为调试参数:
    • λ=0\lambda = 0,约束不起作用,如同标准的线性回归
    • λ\lambda \to \infty,约束影响越大,系数β^L\hat{\beta}^L将尽可能小
      在这里插入图片描述

Lasso系数的正则化(标准化):

  • L1L_1范数:β1=Σj=1pβj\Vert\beta\Vert_1 = \Sigma^p_{j=1}|\beta_j|
  • λ\lambda增加,L1L_1降低;λ\lambda增加足够大,L1L_1会使某些变量系数为0
    在这里插入图片描述
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章