人智导（十）：回归方法的扩展

原創

2020-07-08 07:37

人智导（十）：回归方法的扩展

多项式回归

回归方法的扩展：描述观测变量和响应变量间关联的标准线性模型扩展为非线性
多项式回归 $Y = \beta_0+\beta_1X+\beta_2X^2 +\beta_2 X^3 +\dots +\beta_nX^n$
示例：年龄与工资关系（n=4项） $\hat{f}(x_0) = \hat{\beta_0}+\hat{\beta_1}x_0 +\hat{\beta_2}x^2_0 +\hat{\beta_3}x^3_0 +\hat{\beta_4}x^4_0$

阶梯函数方法

回归方法的扩展：将观测变量的连续值划分为若干区间（分箱操作）（类似于你清计算GPA）
实例：观测变量 $X$ 划分为k个区间， $c_1,c_2,\dots ,c_k$ 以此构建k+1个新的变量（条件成立则 $I$ 函数值为1，否则为0） $C_0(X) = I(X<c_1)\\C_1(X) = I(c_1\le X < c_2) \\C_2(X) = I(c_2\le X <c_3)\\ \dots \\C_{k-1}(X) = I(c_{k-1}\le X < c_k) \\C_k(X) = I(c_k \le X)$
回归模型： $Y = \beta_0+\beta_1C_1(X)+\beta_2C_2(X)+\beta_3C_3(X)+\dots +\beta_kC_k(X)$
$\beta_0$ ： $Y$ 的平均值，仅当 $X<c_1$
对于 $X$ 的值满足于 $c_j\le X < c_{j+1}$ ，则预测 $Y$ 值为 $\beta_0 +\beta_j$
$\beta_j$ ：相对于 $X<c_1$ ， $Y$ 的平均增长仅当 $c_j\le X <c_{j+1}$

非线性回归

扩展为非线性，归结为基本函数的回归形式： $Y=\beta_0 +\beta_1b_1(X)+\beta_2b_2(X)+\beta_3b_3(X)+\dots +\beta_kb_k(X)$ 基本函数可以是 $b_j(X) = X^j$ （多项式表示）或 $b_j(X) = I(c_{k-1}\le X<c_k)$ 或其它函数形式

样条回归方法

样条(splines)回归方法：

多项式回归与阶梯函数方法的结合
样条回归模型形式（例如3-项式）： $Y=\begin{cases}\beta_{01}+\beta_{11}X+\beta_{21}X^2+\beta_{31}X^3 &if~X<c\\ \beta_{02}+\beta_{12}X+\beta_{22}X^2+\beta_{32}X^3 &if~X>c \end{cases}$ 若观测变量 $X$ 划分为 $k$ 个区间 $c_1, c_2, \dots ,c_k$ 模型灵活性更高（模型对应有 $k+1$ 个3-项式）
样条回归与多项式回归对比：不需要太大的n-项式，而是通过区间划分(n=2, 3)增强灵活性
样条回归模型（3-项式）与多项式回归模型（15-项式）对比：如下图

广义累加模型

广义累加模型(GAMs)：拓展为多个预测模型的情况
GAMs回归模型：一种通用型的框架
- 扩展标准的线性模型：每一个预测变量可采用非线性函数描述
- 同时保持累加性
标准回归模型： $Y=\beta_0+\beta_1X_1+\beta_2X_2+\dots +\beta_pX_p$
GAMs模型： $Y=\beta_0+f_1(X_1)+f_2(X_2)+\dots +f_p(X_p) = \beta_0 +\Sigma^p_{j=1}f_j(X_j)$ 非线性函数 $f_j(X_j)$ 替代线性的 $\beta_jX_j$ 来表示每一个观测变量 $X_j$ 与响应变量 $Y$ 的非线性关系
示例： $Wage = \beta_0+f_1(year)+f_2(age)$
特点：
- 通过非线性函数拟合每一个观测变量与响应变量的关系
- 非线性具有更准确的预测能力
- 模型仍旧是累加的，保持可解释性
- 没有体现观测变量间的交互关联，需要更灵活方法，如boosting等
- 线性与非参模型间的很有效的折中技术

回归树

回归树的性质

树结构方法
- 观测变量的值空间划分为若干个区域，划分规则抽象出二叉树结构
- 选择同一区域的训练数据，其相应变量的平均值作为Y预测值（叶节点）
性质：
- 非参方法
- 解释性更强，图示表示
- 准确性一般（与其它方法组合性能优越）
- 响应变量连续（数）值类型 $\to$ 回归树
- 响应变量类目值类型 $]to$ 决策树
示例：预测篮球球员薪水，根据其参赛年限以及投篮命中数目（如下图）

回归树的建立

观测变量 $X_1,X_2,\dots ,X_p$ 的值空间划分为 $J$ 个不交叠的区域 $R_1,R_2,\dots ,R_J$

如何发现合适的划分区域 $R_1,R_2,\dots ,R_J$ ，目标是最小化RSS： $\Sigma^J_{j=1}\Sigma_{i\in R_j}(y_i-\hat{y}_{R_j})^2$ $\hat{y}_{R_j}$ ： $R_j$ 区域内的训练数据Y的平均值
自顶向下、递归二分方法：
- 选择最佳的观测变量 $X_j$ 和最佳的分割点 $s$
- 产生两个二分的区域： $R_1(j,x)=\{X|X_j < S\}$ $R_2(j,s)=\{X|X_j\ge S\}$ 最小化: $\Sigma_{i:x_i\in R_1(j,s)}(y_j -\hat{y}_{R_1})^2 +\Sigma_{i:x_i\in R_2(j,s)}(y_i-\hat{y}_{R_2})^2$
对已有区域递归二分其值空间区域，生成二分树，由约束而终止。（如下图）
区域 $R_1,R_2,\dots ,R_J$ 创建（树生成）后，预测test数据的Y值，即基于同区域训练数据Y的平均值

回归树的裁剪

区域 $R_1, R_2, \dots ,R_J$ 划分过多（树过于复杂），模型易过拟合（如下图）

裁剪生成树为T_0（子树形式），以少量偏差代价降低方差，提升解释性
通过调节超参数 $\alpha$ ，选择一系列子树T，最小化下面公式（类似于Lasso）以求得最好子树模型 $\Sigma^{|T|}_{m=1}\Sigma_{i:x_i\in R_m}(y_i-\hat{y}_{R_m})^2+\alpha |T|$

树模型与线性模型对比

线性模型形式： $f(X) = \beta_0 +\Sigma^p_{j=1}\beta_jX_j$
树模型形式： $f(X) = \Sigma^J_{m=1}c_m\times I(X\in R_m)$
树模型特点：

比线性模型易于解释。树结构展现形式，非领域专家也可以理解
一些行业应用人员确信基于树结构的方法更贴近人的决策
预测的准确度相对来说不高

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

人智导（十）：回归方法的扩展

人智导（十）：回归方法的扩展

多项式回归

阶梯函数方法

非线性回归

样条回归方法

广义累加模型

回归树

回归树的性质

回归树的建立

回归树的裁剪

树模型与线性模型对比

钉钉打卡速度慢

Nginx R31 doc 官方文档-01-nginx 如何安装

Qt/C++音视频开发74-合并标签图形/生成yolo运算结果图形/文字和图形合并成一个/水印滤镜

挑战程序设计竞赛 2.2章习题 POJ - 3617 Best Cow Line 贪心

字节面试：MySQL什么时候锁表？如何防止锁表？

.NET8连接SQL SERVER 2008 R2 报：证书链是由不受信任的颁发机构颁发的

golang开发环境搭建(win10)

python计算机视觉学习笔记——PIL库的用法

Golang初学：获取程序内存使用情况，std runtime

2019.5.32

人智導（十）：迴歸方法的擴展

2019.5.33

人智導（九）：迴歸方法的精化

2019.4.34

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結