线性模型的扩展
1.两个概念:可加性与线性性
①可加性:
可加性是指预测变量Xj的变化对响应变量Y产生的影响与其他预测变量的取指无关。线性假设是指无论Xj取何值, Xj变化一个单位引起的响应变量Y的变化是恒定的。
②线性关系:
响应变量跟预测变量未必是线性,有时是多项式回归
2.去除可加性假设
注意到:当TV或radio其中之一较低时,真实sales总是低于线性模型的预测。但当两种媒体共享广告费时,模型往往会低估sales。说明两变量存在交互作用。
当预测变量之间存在交互作用时,即某变量的增加,会导致其他变量也增加,我们应该加入交互项X1X2…Xp,如
Y = B0 + B1X1 + B2X2 + B3X1X2 + e
**需要注意的是:**如果模型中含有交互项,那么即使主效应的系数的p值不显著,也应包含在模型中。
3.非线性关系
多项式回归:若数据呈现一种曲线关系,则考虑用多项式回归
eg: mpg = B0 + B1 · horsepower + B2 · horsepower^2 + e
多元线性回归模型仍然属于 线性模型。值得注意的是:变量次方一般不大于3或4。
4.数据的非线性
①残差图:用于识别数据的非线性
简单线性回归,绘制的是残差 ei = y - yih 和 预测变量的xi的散点图;
多元回归中,绘制残差 与 预测值yih的散点图。
注:理想情况下,残差图显示不出明显的规律,若有规律,则表示线性模型某些方面有问题。
如果残差图表明数据中存在非线性关系,那么一种简单的关系是在模型中使用预测变量的非线性变换,如logX,根号X和 X^2.
5.误差项方差非恒定
线性模型假设误差项的方差是恒定的,即VAR(ei) = theta^2。
若残差图呈现漏斗状,说明误差项方差非恒定,可以用凹函数对响应值y做变换,比如logY 和 根号Y。
6.离群点
绘制学生化残差图(studentized residual)可轻易判断离群点。
若发现离群点,一个解决方案就是直接删除。但是我们应该小心,因为一个离群点可能不是由失误造成,而是暗示模型存在缺陷。
7.高杠杆点
待补