人智导(十):回归方法的扩展

人智导(十):回归方法的扩展

多项式回归

  • 回归方法的扩展:描述观测变量和响应变量间关联的标准线性模型扩展为非线性
  • 多项式回归 Y=β0+β1X+β2X2+β2X3++βnXnY = \beta_0+\beta_1X+\beta_2X^2 +\beta_2 X^3 +\dots +\beta_nX^n
  • 示例:年龄与工资关系(n=4项) f^(x0)=β0^+β1^x0+β2^x02+β3^x03+β4^x04\hat{f}(x_0) = \hat{\beta_0}+\hat{\beta_1}x_0 +\hat{\beta_2}x^2_0 +\hat{\beta_3}x^3_0 +\hat{\beta_4}x^4_0
    在这里插入图片描述

阶梯函数方法

  • 回归方法的扩展:将观测变量的连续值划分为若干区间(分箱操作)(类似于你清计算GPA)
  • 实例:观测变量XX划分为k个区间,c1,c2,,ckc_1,c_2,\dots ,c_k 以此构建k+1个新的变量(条件成立则II函数值为1,否则为0) C0(X)=I(X<c1)C1(X)=I(c1X<c2)C2(X)=I(c2X<c3)Ck1(X)=I(ck1X<ck)Ck(X)=I(ckX)C_0(X) = I(X<c_1)\\C_1(X) = I(c_1\le X < c_2) \\C_2(X) = I(c_2\le X <c_3)\\ \dots \\C_{k-1}(X) = I(c_{k-1}\le X < c_k) \\C_k(X) = I(c_k \le X)
    在这里插入图片描述
  • 回归模型: Y=β0+β1C1(X)+β2C2(X)+β3C3(X)++βkCk(X)Y = \beta_0+\beta_1C_1(X)+\beta_2C_2(X)+\beta_3C_3(X)+\dots +\beta_kC_k(X)
  • β0\beta_0YY的平均值,仅当X<c1X<c_1
  • 对于XX的值满足于cjX<cj+1c_j\le X < c_{j+1},则预测YY值为β0+βj\beta_0 +\beta_j
  • βj\beta_j:相对于X<c1X<c_1YY的平均增长仅当cjX<cj+1c_j\le X <c_{j+1}

非线性回归

  • 扩展为非线性,归结为基本函数的回归形式: Y=β0+β1b1(X)+β2b2(X)+β3b3(X)++βkbk(X)Y=\beta_0 +\beta_1b_1(X)+\beta_2b_2(X)+\beta_3b_3(X)+\dots +\beta_kb_k(X) 基本函数可以是bj(X)=Xjb_j(X) = X^j(多项式表示)或bj(X)=I(ck1X<ck)b_j(X) = I(c_{k-1}\le X<c_k) 或其它函数形式

样条回归方法

样条(splines)回归方法:

  • 多项式回归与阶梯函数方法的结合
  • 样条回归模型形式(例如3-项式): Y={β01+β11X+β21X2+β31X3if X<cβ02+β12X+β22X2+β32X3if X>cY=\begin{cases}\beta_{01}+\beta_{11}X+\beta_{21}X^2+\beta_{31}X^3 &if~X<c\\ \beta_{02}+\beta_{12}X+\beta_{22}X^2+\beta_{32}X^3 &if~X>c \end{cases} 若观测变量XX划分为kk个区间c1,c2,,ckc_1, c_2, \dots ,c_k 模型灵活性更高(模型对应有k+1k+1个3-项式)
    在这里插入图片描述
  • 样条回归与多项式回归对比:不需要太大的n-项式,而是通过区间划分(n=2, 3)增强灵活性
  • 样条回归模型(3-项式)与多项式回归模型(15-项式)对比:如下图
    在这里插入图片描述

广义累加模型

  • 广义累加模型(GAMs):拓展为多个预测模型的情况
  • GAMs回归模型:一种通用型的框架
    • 扩展标准的线性模型:每一个预测变量可采用非线性函数描述
    • 同时保持累加性
  • 标准回归模型:Y=β0+β1X1+β2X2++βpXpY=\beta_0+\beta_1X_1+\beta_2X_2+\dots +\beta_pX_p
  • GAMs模型:Y=β0+f1(X1)+f2(X2)++fp(Xp)=β0+Σj=1pfj(Xj)Y=\beta_0+f_1(X_1)+f_2(X_2)+\dots +f_p(X_p) = \beta_0 +\Sigma^p_{j=1}f_j(X_j) 非线性函数fj(Xj)f_j(X_j)替代线性的βjXj\beta_jX_j来表示每一个观测变量XjX_j与响应变量YY的非线性关系
  • 示例:Wage=β0+f1(year)+f2(age)Wage = \beta_0+f_1(year)+f_2(age)
    在这里插入图片描述
  • 特点:
    • 通过非线性函数拟合每一个观测变量与响应变量的关系
    • 非线性具有更准确的预测能力
    • 模型仍旧是累加的,保持可解释性
    • 没有体现观测变量间的交互关联,需要更灵活方法,如boosting等
    • 线性与非参模型间的很有效的折中技术

回归树

回归树的性质

  • 树结构方法
    • 观测变量的值空间划分为若干个区域,划分规则抽象出二叉树结构
    • 选择同一区域的训练数据,其相应变量的平均值作为Y预测值(叶节点)
  • 性质:
    • 非参方法
    • 解释性更强,图示表示
    • 准确性一般(与其它方法组合性能优越)
    • 响应变量连续(数)值类型\to回归树
    • 响应变量类目值类型]to]to决策树
  • 示例:预测篮球球员薪水,根据其参赛年限以及投篮命中数目(如下图)
    在这里插入图片描述

回归树的建立

观测变量X1,X2,,XpX_1,X_2,\dots ,X_p的值空间划分为JJ个不交叠的区域R1,R2,,RJR_1,R_2,\dots ,R_J

  • 如何发现合适的划分区域R1,R2,,RJR_1,R_2,\dots ,R_J,目标是最小化RSS:Σj=1JΣiRj(yiy^Rj)2\Sigma^J_{j=1}\Sigma_{i\in R_j}(y_i-\hat{y}_{R_j})^2 y^Rj\hat{y}_{R_j}RjR_j区域内的训练数据Y的平均值
  • 自顶向下、递归二分方法:
    • 选择最佳的观测变量XjX_j和最佳的分割点ss
    • 产生两个二分的区域:R1(j,x)={XXj<S}R_1(j,x)=\{X|X_j < S\} R2(j,s)={XXjS}R_2(j,s)=\{X|X_j\ge S\} 最小化: Σi:xiR1(j,s)(yjy^R1)2+Σi:xiR2(j,s)(yiy^R2)2\Sigma_{i:x_i\in R_1(j,s)}(y_j -\hat{y}_{R_1})^2 +\Sigma_{i:x_i\in R_2(j,s)}(y_i-\hat{y}_{R_2})^2
  • 对已有区域递归二分其值空间区域,生成二分树,由约束而终止。(如下图)
    在这里插入图片描述
  • 区域R1,R2,,RJR_1,R_2,\dots ,R_J创建(树生成)后,预测test数据的Y值,即基于同区域训练数据Y的平均值

回归树的裁剪

区域R1,R2,,RJR_1, R_2, \dots ,R_J划分过多(树过于复杂),模型易过拟合(如下图)

在这里插入图片描述

  • 裁剪生成树为T_0(子树形式),以少量偏差代价降低方差,提升解释性
  • 通过调节超参数α\alpha,选择一系列子树T,最小化下面公式(类似于Lasso)以求得最好子树模型 Σm=1TΣi:xiRm(yiy^Rm)2+αT\Sigma^{|T|}_{m=1}\Sigma_{i:x_i\in R_m}(y_i-\hat{y}_{R_m})^2+\alpha |T|

树模型与线性模型对比

在这里插入图片描述
线性模型形式:f(X)=β0+Σj=1pβjXjf(X) = \beta_0 +\Sigma^p_{j=1}\beta_jX_j
树模型形式:f(X)=Σm=1Jcm×I(XRm)f(X) = \Sigma^J_{m=1}c_m\times I(X\in R_m)
树模型特点:

  • 比线性模型易于解释。树结构展现形式,非领域专家也可以理解
  • 一些行业应用人员确信基于树结构的方法更贴近人的决策
  • 预测的准确度相对来说不高
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章