人智導（十）：迴歸方法的擴展

原創

2020-07-08 07:37

人智導（十）：迴歸方法的擴展

多項式迴歸

迴歸方法的擴展：描述觀測變量和響應變量間關聯的標準線性模型擴展爲非線性
多項式迴歸 $Y = \beta_0+\beta_1X+\beta_2X^2 +\beta_2 X^3 +\dots +\beta_nX^n$
示例：年齡與工資關係（n=4項） $\hat{f}(x_0) = \hat{\beta_0}+\hat{\beta_1}x_0 +\hat{\beta_2}x^2_0 +\hat{\beta_3}x^3_0 +\hat{\beta_4}x^4_0$

階梯函數方法

迴歸方法的擴展：將觀測變量的連續值劃分爲若干區間（分箱操作）（類似於你清計算GPA）
實例：觀測變量 $X$ 劃分爲k個區間， $c_1,c_2,\dots ,c_k$ 以此構建k+1個新的變量（條件成立則 $I$ 函數值爲1，否則爲0） $C_0(X) = I(X<c_1)\\C_1(X) = I(c_1\le X < c_2) \\C_2(X) = I(c_2\le X <c_3)\\ \dots \\C_{k-1}(X) = I(c_{k-1}\le X < c_k) \\C_k(X) = I(c_k \le X)$
迴歸模型： $Y = \beta_0+\beta_1C_1(X)+\beta_2C_2(X)+\beta_3C_3(X)+\dots +\beta_kC_k(X)$
$\beta_0$ ： $Y$ 的平均值，僅當 $X<c_1$
對於 $X$ 的值滿足於 $c_j\le X < c_{j+1}$ ，則預測 $Y$ 值爲 $\beta_0 +\beta_j$
$\beta_j$ ：相對於 $X<c_1$ ， $Y$ 的平均增長僅當 $c_j\le X <c_{j+1}$

非線性迴歸

擴展爲非線性，歸結爲基本函數的迴歸形式： $Y=\beta_0 +\beta_1b_1(X)+\beta_2b_2(X)+\beta_3b_3(X)+\dots +\beta_kb_k(X)$ 基本函數可以是 $b_j(X) = X^j$ （多項式表示）或 $b_j(X) = I(c_{k-1}\le X<c_k)$ 或其它函數形式

樣條迴歸方法

樣條(splines)迴歸方法：

多項式迴歸與階梯函數方法的結合
樣條迴歸模型形式（例如3-項式）： $Y=\begin{cases}\beta_{01}+\beta_{11}X+\beta_{21}X^2+\beta_{31}X^3 &if~X<c\\ \beta_{02}+\beta_{12}X+\beta_{22}X^2+\beta_{32}X^3 &if~X>c \end{cases}$ 若觀測變量 $X$ 劃分爲 $k$ 個區間 $c_1, c_2, \dots ,c_k$ 模型靈活性更高（模型對應有 $k+1$ 個3-項式）
樣條迴歸與多項式迴歸對比：不需要太大的n-項式，而是通過區間劃分(n=2, 3)增強靈活性
樣條迴歸模型（3-項式）與多項式迴歸模型（15-項式）對比：如下圖

廣義累加模型

廣義累加模型(GAMs)：拓展爲多個預測模型的情況
GAMs迴歸模型：一種通用型的框架
- 擴展標準的線性模型：每一個預測變量可採用非線性函數描述
- 同時保持累加性
標準迴歸模型： $Y=\beta_0+\beta_1X_1+\beta_2X_2+\dots +\beta_pX_p$
GAMs模型： $Y=\beta_0+f_1(X_1)+f_2(X_2)+\dots +f_p(X_p) = \beta_0 +\Sigma^p_{j=1}f_j(X_j)$ 非線性函數 $f_j(X_j)$ 替代線性的 $\beta_jX_j$ 來表示每一個觀測變量 $X_j$ 與響應變量 $Y$ 的非線性關係
示例： $Wage = \beta_0+f_1(year)+f_2(age)$
特點：
- 通過非線性函數擬合每一個觀測變量與響應變量的關係
- 非線性具有更準確的預測能力
- 模型仍舊是累加的，保持可解釋性
- 沒有體現觀測變量間的交互關聯，需要更靈活方法，如boosting等
- 線性與非參模型間的很有效的折中技術

迴歸樹

迴歸樹的性質

樹結構方法
- 觀測變量的值空間劃分爲若干個區域，劃分規則抽象出二叉樹結構
- 選擇同一區域的訓練數據，其相應變量的平均值作爲Y預測值（葉節點）
性質：
- 非參方法
- 解釋性更強，圖示表示
- 準確性一般（與其它方法組合性能優越）
- 響應變量連續（數）值類型 $\to$ 迴歸樹
- 響應變量類目值類型 $]to$ 決策樹
示例：預測籃球球員薪水，根據其參賽年限以及投籃命中數目（如下圖）

迴歸樹的建立

觀測變量 $X_1,X_2,\dots ,X_p$ 的值空間劃分爲 $J$ 個不交疊的區域 $R_1,R_2,\dots ,R_J$

如何發現合適的劃分區域 $R_1,R_2,\dots ,R_J$ ，目標是最小化RSS： $\Sigma^J_{j=1}\Sigma_{i\in R_j}(y_i-\hat{y}_{R_j})^2$ $\hat{y}_{R_j}$ ： $R_j$ 區域內的訓練數據Y的平均值
自頂向下、遞歸二分方法：
- 選擇最佳的觀測變量 $X_j$ 和最佳的分割點 $s$
- 產生兩個二分的區域： $R_1(j,x)=\{X|X_j < S\}$ $R_2(j,s)=\{X|X_j\ge S\}$ 最小化: $\Sigma_{i:x_i\in R_1(j,s)}(y_j -\hat{y}_{R_1})^2 +\Sigma_{i:x_i\in R_2(j,s)}(y_i-\hat{y}_{R_2})^2$
對已有區域遞歸二分其值空間區域，生成二分樹，由約束而終止。（如下圖）
區域 $R_1,R_2,\dots ,R_J$ 創建（樹生成）後，預測test數據的Y值，即基於同區域訓練數據Y的平均值

迴歸樹的裁剪

區域 $R_1, R_2, \dots ,R_J$ 劃分過多（樹過於複雜），模型易過擬合（如下圖）

裁剪生成樹爲T_0（子樹形式），以少量偏差代價降低方差，提升解釋性
通過調節超參數 $\alpha$ ，選擇一系列子樹T，最小化下面公式（類似於Lasso）以求得最好子樹模型 $\Sigma^{|T|}_{m=1}\Sigma_{i:x_i\in R_m}(y_i-\hat{y}_{R_m})^2+\alpha |T|$

樹模型與線性模型對比

線性模型形式： $f(X) = \beta_0 +\Sigma^p_{j=1}\beta_jX_j$
樹模型形式： $f(X) = \Sigma^J_{m=1}c_m\times I(X\in R_m)$
樹模型特點：

比線性模型易於解釋。樹結構展現形式，非領域專家也可以理解
一些行業應用人員確信基於樹結構的方法更貼近人的決策
預測的準確度相對來說不高

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

人智導（十）：迴歸方法的擴展

人智導（十）：迴歸方法的擴展

多項式迴歸

階梯函數方法

非線性迴歸

樣條迴歸方法

廣義累加模型

迴歸樹

迴歸樹的性質

迴歸樹的建立

迴歸樹的裁剪

樹模型與線性模型對比

win11關閉自動檢測病毒刪文件

千兆寬帶實際網速能到達多少？

2019.5.32

人智導（十）：迴歸方法的擴展

2019.5.33

人智導（九）：迴歸方法的精化

2019.4.34

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結