(ISLR-note)Chapter3-3回归模型中的其他注意事项

线性模型的扩展

1.两个概念：可加性与线性性

①可加性：

可加性是指预测变量Xj的变化对响应变量Y产生的影响与其他预测变量的取指无关。线性假设是指无论Xj取何值, Xj变化一个单位引起的响应变量Y的变化是恒定的。

②线性关系：

响应变量跟预测变量未必是线性，有时是多项式回归

注意到：当TV或radio其中之一较低时，真实sales总是低于线性模型的预测。但当两种媒体共享广告费时，模型往往会低估sales。说明两变量存在交互作用。

当预测变量之间存在交互作用时，即某变量的增加，会导致其他变量也增加，我们应该加入交互项X1X2…Xp，如

Y = B0 + B1X1 + B2X2 + B3X1X2 + e

**需要注意的是：**如果模型中含有交互项，那么即使主效应的系数的p值不显著，也应包含在模型中。

多项式回归：若数据呈现一种曲线关系，则考虑用多项式回归

eg: mpg = B0 + B1 · horsepower + B2 · horsepower^2 + e

多元线性回归模型仍然属于 线性模型。值得注意的是：变量次方一般不大于3或4。

①残差图：用于识别数据的非线性
简单线性回归，绘制的是残差 ei = y - yih 和 预测变量的xi的散点图；
多元回归中，绘制残差与 预测值yih的散点图。

注：理想情况下，残差图显示不出明显的规律，若有规律，则表示线性模型某些方面有问题。

如果残差图表明数据中存在非线性关系，那么一种简单的关系是在模型中使用预测变量的非线性变换，如logX，根号X和 X^2.

线性模型假设误差项的方差是恒定的，即VAR(ei) = theta^2。
若残差图呈现漏斗状，说明误差项方差非恒定，可以用凹函数对响应值y做变换，比如logY 和根号Y。

绘制学生化残差图（studentized residual）可轻易判断离群点。
若发现离群点，一个解决方案就是直接删除。但是我们应该小心，因为一个离群点可能不是由失误造成，而是暗示模型存在缺陷。

待补

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.