人智導(十):迴歸方法的擴展
多項式迴歸
- 迴歸方法的擴展:描述觀測變量和響應變量間關聯的標準線性模型擴展爲非線性
- 多項式迴歸 Y=β0+β1X+β2X2+β2X3+⋯+βnXn
- 示例:年齡與工資關係(n=4項) f^(x0)=β0^+β1^x0+β2^x02+β3^x03+β4^x04
階梯函數方法
- 迴歸方法的擴展:將觀測變量的連續值劃分爲若干區間(分箱操作)(類似於你清計算GPA)
- 實例:觀測變量X劃分爲k個區間,c1,c2,…,ck 以此構建k+1個新的變量(條件成立則I函數值爲1,否則爲0) C0(X)=I(X<c1)C1(X)=I(c1≤X<c2)C2(X)=I(c2≤X<c3)…Ck−1(X)=I(ck−1≤X<ck)Ck(X)=I(ck≤X)
- 迴歸模型: Y=β0+β1C1(X)+β2C2(X)+β3C3(X)+⋯+βkCk(X)
- β0:Y的平均值,僅當X<c1
- 對於X的值滿足於cj≤X<cj+1,則預測Y值爲β0+βj
- βj:相對於X<c1,Y的平均增長僅當cj≤X<cj+1
非線性迴歸
- 擴展爲非線性,歸結爲基本函數的迴歸形式: Y=β0+β1b1(X)+β2b2(X)+β3b3(X)+⋯+βkbk(X) 基本函數可以是bj(X)=Xj(多項式表示)或bj(X)=I(ck−1≤X<ck) 或其它函數形式
樣條迴歸方法
樣條(splines)迴歸方法:
- 多項式迴歸與階梯函數方法的結合
- 樣條迴歸模型形式(例如3-項式): Y={β01+β11X+β21X2+β31X3β02+β12X+β22X2+β32X3if X<cif X>c 若觀測變量X劃分爲k個區間c1,c2,…,ck 模型靈活性更高(模型對應有k+1個3-項式)
- 樣條迴歸與多項式迴歸對比:不需要太大的n-項式,而是通過區間劃分(n=2, 3)增強靈活性
- 樣條迴歸模型(3-項式)與多項式迴歸模型(15-項式)對比:如下圖
廣義累加模型
- 廣義累加模型(GAMs):拓展爲多個預測模型的情況
- GAMs迴歸模型:一種通用型的框架
- 擴展標準的線性模型:每一個預測變量可採用非線性函數描述
- 同時保持累加性
- 標準迴歸模型:Y=β0+β1X1+β2X2+⋯+βpXp
- GAMs模型:Y=β0+f1(X1)+f2(X2)+⋯+fp(Xp)=β0+Σj=1pfj(Xj) 非線性函數fj(Xj)替代線性的βjXj來表示每一個觀測變量Xj與響應變量Y的非線性關係
- 示例:Wage=β0+f1(year)+f2(age)
- 特點:
- 通過非線性函數擬合每一個觀測變量與響應變量的關係
- 非線性具有更準確的預測能力
- 模型仍舊是累加的,保持可解釋性
- 沒有體現觀測變量間的交互關聯,需要更靈活方法,如boosting等
- 線性與非參模型間的很有效的折中技術
迴歸樹
迴歸樹的性質
- 樹結構方法
- 觀測變量的值空間劃分爲若干個區域,劃分規則抽象出二叉樹結構
- 選擇同一區域的訓練數據,其相應變量的平均值作爲Y預測值(葉節點)
- 性質:
- 非參方法
- 解釋性更強,圖示表示
- 準確性一般(與其它方法組合性能優越)
- 響應變量連續(數)值類型→迴歸樹
- 響應變量類目值類型]to決策樹
- 示例:預測籃球球員薪水,根據其參賽年限以及投籃命中數目(如下圖)
迴歸樹的建立
觀測變量X1,X2,…,Xp的值空間劃分爲J個不交疊的區域R1,R2,…,RJ
- 如何發現合適的劃分區域R1,R2,…,RJ,目標是最小化RSS:Σj=1JΣi∈Rj(yi−y^Rj)2 y^Rj:Rj區域內的訓練數據Y的平均值
- 自頂向下、遞歸二分方法:
- 選擇最佳的觀測變量Xj和最佳的分割點s
- 產生兩個二分的區域:R1(j,x)={X∣Xj<S} R2(j,s)={X∣Xj≥S} 最小化: Σi:xi∈R1(j,s)(yj−y^R1)2+Σi:xi∈R2(j,s)(yi−y^R2)2
- 對已有區域遞歸二分其值空間區域,生成二分樹,由約束而終止。(如下圖)
- 區域R1,R2,…,RJ創建(樹生成)後,預測test數據的Y值,即基於同區域訓練數據Y的平均值
迴歸樹的裁剪
區域R1,R2,…,RJ劃分過多(樹過於複雜),模型易過擬合(如下圖)
- 裁剪生成樹爲T_0(子樹形式),以少量偏差代價降低方差,提升解釋性
- 通過調節超參數α,選擇一系列子樹T,最小化下面公式(類似於Lasso)以求得最好子樹模型 Σm=1∣T∣Σi:xi∈Rm(yi−y^Rm)2+α∣T∣
樹模型與線性模型對比
線性模型形式:f(X)=β0+Σj=1pβjXj
樹模型形式:f(X)=Σm=1Jcm×I(X∈Rm)
樹模型特點:
- 比線性模型易於解釋。樹結構展現形式,非領域專家也可以理解
- 一些行業應用人員確信基於樹結構的方法更貼近人的決策
- 預測的準確度相對來說不高