人智導(十):迴歸方法的擴展

人智導(十):迴歸方法的擴展

多項式迴歸

  • 迴歸方法的擴展:描述觀測變量和響應變量間關聯的標準線性模型擴展爲非線性
  • 多項式迴歸 Y=β0+β1X+β2X2+β2X3++βnXnY = \beta_0+\beta_1X+\beta_2X^2 +\beta_2 X^3 +\dots +\beta_nX^n
  • 示例:年齡與工資關係(n=4項) f^(x0)=β0^+β1^x0+β2^x02+β3^x03+β4^x04\hat{f}(x_0) = \hat{\beta_0}+\hat{\beta_1}x_0 +\hat{\beta_2}x^2_0 +\hat{\beta_3}x^3_0 +\hat{\beta_4}x^4_0
    在這裏插入圖片描述

階梯函數方法

  • 迴歸方法的擴展:將觀測變量的連續值劃分爲若干區間(分箱操作)(類似於你清計算GPA)
  • 實例:觀測變量XX劃分爲k個區間,c1,c2,,ckc_1,c_2,\dots ,c_k 以此構建k+1個新的變量(條件成立則II函數值爲1,否則爲0) C0(X)=I(X<c1)C1(X)=I(c1X<c2)C2(X)=I(c2X<c3)Ck1(X)=I(ck1X<ck)Ck(X)=I(ckX)C_0(X) = I(X<c_1)\\C_1(X) = I(c_1\le X < c_2) \\C_2(X) = I(c_2\le X <c_3)\\ \dots \\C_{k-1}(X) = I(c_{k-1}\le X < c_k) \\C_k(X) = I(c_k \le X)
    在這裏插入圖片描述
  • 迴歸模型: Y=β0+β1C1(X)+β2C2(X)+β3C3(X)++βkCk(X)Y = \beta_0+\beta_1C_1(X)+\beta_2C_2(X)+\beta_3C_3(X)+\dots +\beta_kC_k(X)
  • β0\beta_0YY的平均值,僅當X<c1X<c_1
  • 對於XX的值滿足於cjX<cj+1c_j\le X < c_{j+1},則預測YY值爲β0+βj\beta_0 +\beta_j
  • βj\beta_j:相對於X<c1X<c_1YY的平均增長僅當cjX<cj+1c_j\le X <c_{j+1}

非線性迴歸

  • 擴展爲非線性,歸結爲基本函數的迴歸形式: Y=β0+β1b1(X)+β2b2(X)+β3b3(X)++βkbk(X)Y=\beta_0 +\beta_1b_1(X)+\beta_2b_2(X)+\beta_3b_3(X)+\dots +\beta_kb_k(X) 基本函數可以是bj(X)=Xjb_j(X) = X^j(多項式表示)或bj(X)=I(ck1X<ck)b_j(X) = I(c_{k-1}\le X<c_k) 或其它函數形式

樣條迴歸方法

樣條(splines)迴歸方法:

  • 多項式迴歸與階梯函數方法的結合
  • 樣條迴歸模型形式(例如3-項式): Y={β01+β11X+β21X2+β31X3if X<cβ02+β12X+β22X2+β32X3if X>cY=\begin{cases}\beta_{01}+\beta_{11}X+\beta_{21}X^2+\beta_{31}X^3 &if~X<c\\ \beta_{02}+\beta_{12}X+\beta_{22}X^2+\beta_{32}X^3 &if~X>c \end{cases} 若觀測變量XX劃分爲kk個區間c1,c2,,ckc_1, c_2, \dots ,c_k 模型靈活性更高(模型對應有k+1k+1個3-項式)
    在這裏插入圖片描述
  • 樣條迴歸與多項式迴歸對比:不需要太大的n-項式,而是通過區間劃分(n=2, 3)增強靈活性
  • 樣條迴歸模型(3-項式)與多項式迴歸模型(15-項式)對比:如下圖
    在這裏插入圖片描述

廣義累加模型

  • 廣義累加模型(GAMs):拓展爲多個預測模型的情況
  • GAMs迴歸模型:一種通用型的框架
    • 擴展標準的線性模型:每一個預測變量可採用非線性函數描述
    • 同時保持累加性
  • 標準迴歸模型:Y=β0+β1X1+β2X2++βpXpY=\beta_0+\beta_1X_1+\beta_2X_2+\dots +\beta_pX_p
  • GAMs模型:Y=β0+f1(X1)+f2(X2)++fp(Xp)=β0+Σj=1pfj(Xj)Y=\beta_0+f_1(X_1)+f_2(X_2)+\dots +f_p(X_p) = \beta_0 +\Sigma^p_{j=1}f_j(X_j) 非線性函數fj(Xj)f_j(X_j)替代線性的βjXj\beta_jX_j來表示每一個觀測變量XjX_j與響應變量YY的非線性關係
  • 示例:Wage=β0+f1(year)+f2(age)Wage = \beta_0+f_1(year)+f_2(age)
    在這裏插入圖片描述
  • 特點:
    • 通過非線性函數擬合每一個觀測變量與響應變量的關係
    • 非線性具有更準確的預測能力
    • 模型仍舊是累加的,保持可解釋性
    • 沒有體現觀測變量間的交互關聯,需要更靈活方法,如boosting等
    • 線性與非參模型間的很有效的折中技術

迴歸樹

迴歸樹的性質

  • 樹結構方法
    • 觀測變量的值空間劃分爲若干個區域,劃分規則抽象出二叉樹結構
    • 選擇同一區域的訓練數據,其相應變量的平均值作爲Y預測值(葉節點)
  • 性質:
    • 非參方法
    • 解釋性更強,圖示表示
    • 準確性一般(與其它方法組合性能優越)
    • 響應變量連續(數)值類型\to迴歸樹
    • 響應變量類目值類型]to]to決策樹
  • 示例:預測籃球球員薪水,根據其參賽年限以及投籃命中數目(如下圖)
    在這裏插入圖片描述

迴歸樹的建立

觀測變量X1,X2,,XpX_1,X_2,\dots ,X_p的值空間劃分爲JJ個不交疊的區域R1,R2,,RJR_1,R_2,\dots ,R_J

  • 如何發現合適的劃分區域R1,R2,,RJR_1,R_2,\dots ,R_J,目標是最小化RSS:Σj=1JΣiRj(yiy^Rj)2\Sigma^J_{j=1}\Sigma_{i\in R_j}(y_i-\hat{y}_{R_j})^2 y^Rj\hat{y}_{R_j}RjR_j區域內的訓練數據Y的平均值
  • 自頂向下、遞歸二分方法:
    • 選擇最佳的觀測變量XjX_j和最佳的分割點ss
    • 產生兩個二分的區域:R1(j,x)={XXj<S}R_1(j,x)=\{X|X_j < S\} R2(j,s)={XXjS}R_2(j,s)=\{X|X_j\ge S\} 最小化: Σi:xiR1(j,s)(yjy^R1)2+Σi:xiR2(j,s)(yiy^R2)2\Sigma_{i:x_i\in R_1(j,s)}(y_j -\hat{y}_{R_1})^2 +\Sigma_{i:x_i\in R_2(j,s)}(y_i-\hat{y}_{R_2})^2
  • 對已有區域遞歸二分其值空間區域,生成二分樹,由約束而終止。(如下圖)
    在這裏插入圖片描述
  • 區域R1,R2,,RJR_1,R_2,\dots ,R_J創建(樹生成)後,預測test數據的Y值,即基於同區域訓練數據Y的平均值

迴歸樹的裁剪

區域R1,R2,,RJR_1, R_2, \dots ,R_J劃分過多(樹過於複雜),模型易過擬合(如下圖)

在這裏插入圖片描述

  • 裁剪生成樹爲T_0(子樹形式),以少量偏差代價降低方差,提升解釋性
  • 通過調節超參數α\alpha,選擇一系列子樹T,最小化下面公式(類似於Lasso)以求得最好子樹模型 Σm=1TΣi:xiRm(yiy^Rm)2+αT\Sigma^{|T|}_{m=1}\Sigma_{i:x_i\in R_m}(y_i-\hat{y}_{R_m})^2+\alpha |T|

樹模型與線性模型對比

在這裏插入圖片描述
線性模型形式:f(X)=β0+Σj=1pβjXjf(X) = \beta_0 +\Sigma^p_{j=1}\beta_jX_j
樹模型形式:f(X)=Σm=1Jcm×I(XRm)f(X) = \Sigma^J_{m=1}c_m\times I(X\in R_m)
樹模型特點:

  • 比線性模型易於解釋。樹結構展現形式,非領域專家也可以理解
  • 一些行業應用人員確信基於樹結構的方法更貼近人的決策
  • 預測的準確度相對來說不高
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章