(ISLR-note)Chapter3-3回归模型中的其他注意事项

线性模型的扩展

1.两个概念:可加性与线性性

①可加性

可加性是指预测变量Xj的变化对响应变量Y产生的影响与其他预测变量的取指无关。线性假设是指无论Xj取何值, Xj变化一个单位引起的响应变量Y的变化是恒定的。

②线性关系

响应变量跟预测变量未必是线性,有时是多项式回归

2.去除可加性假设

注意到:当TV或radio其中之一较低时,真实sales总是低于线性模型的预测。但当两种媒体共享广告费时,模型往往会低估sales。说明两变量存在交互作用。

当预测变量之间存在交互作用时,即某变量的增加,会导致其他变量也增加,我们应该加入交互项X1X2…Xp,如

Y = B0 + B1X1 + B2X2 + B3X1X2 + e

**需要注意的是:**如果模型中含有交互项,那么即使主效应的系数的p值不显著,也应包含在模型中。

3.非线性关系

多项式回归:若数据呈现一种曲线关系,则考虑用多项式回归

eg: mpg = B0 + B1 · horsepower + B2 · horsepower^2 + e

多元线性回归模型仍然属于 线性模型。值得注意的是:变量次方一般不大于3或4。

4.数据的非线性

残差图:用于识别数据的非线性
简单线性回归,绘制的是残差 ei = y - yih 和 预测变量的xi的散点图;
多元回归中,绘制残差预测值yih的散点图。

注:理想情况下,残差图显示不出明显的规律,若有规律,则表示线性模型某些方面有问题。

如果残差图表明数据中存在非线性关系,那么一种简单的关系是在模型中使用预测变量的非线性变换,如logX,根号X和 X^2.

5.误差项方差非恒定

线性模型假设误差项的方差是恒定的,即VAR(ei) = theta^2。
若残差图呈现漏斗状,说明误差项方差非恒定,可以用凹函数对响应值y做变换,比如logY 和 根号Y。

6.离群点

绘制学生化残差图(studentized residual)可轻易判断离群点。
若发现离群点,一个解决方案就是直接删除。但是我们应该小心,因为一个离群点可能不是由失误造成,而是暗示模型存在缺陷。

7.高杠杆点

待补

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章