(ISLR-note)Chapter3-2多元线性回归

多元线性回归

1.估计系数(estimating coefficient)

选择Beta0,Beta1使残差平方和最小。

Bj 解释为在所有其他预测变量保持不变的情况下,Xj增加一个单位对Y产生的平均效果。

“在将温度变量纳入模型之后,同时用冰激凌销量和温度对鲨鱼攻击量建立多元回归模型,与直觉相符的结论才能产生出来,冰激凌销量这一预测变量变得不再显著”————解释了多元线性回归优于简单线性回归的原因。

2.假设检验:确定响应变量和预测变量是否相关

(1)零假设H0: B1 = B2 = B3… = Bp = 0

(2)备择假设Ha: 至少有一个Bj不为0

这个假设检验需要用到F统计量(F-statistic)。
当响应变量与预测变量无关,F统计量应该接近1;否则,F大于1.

Q: 当F统计量更接近于1时,F需要多大才能拒绝H0?
补:若F统计量的p值几乎为零,则表明至少有一个广告变量与响应变量有关。

要判断某个预测变量是否与响应变量是否有关,不仅要看该预测变量对应的p值,(如果任意变量的p值很小,那么至少有一个预测变量与响应变量相关),还要看整体的F统计量*(因为当预测变量的数目很大的时候,必定会出现某个变元的p值<0.05)*。

3.选定重要变量

Q: 如何在诸多预测变量中,剔除与响应变量无关的变量,挑选出真正与预测变量相关的子集呢?(变量选择在第6章中有进一步研究)

4.模型拟合

衡量模型拟合优劣的指标是RSER^2(方差的解释比例)。
R^2:
若假如新的预测变量x后,模型的 R ^2 较未加入变元x的 R ^2大幅增加,则表明加入后模型的预测能力更强。【应该注意的是,当更多的变量进入模型时,即使新加入的变量与响应变量的关联很弱, R^2也一定会增加】

若R^2值接近1,则表明该模型能解释响应变量的大部分方差。

RSE:
若假如新的预测变量x后,模型的RSE 较未加入变元x的 RSE减少,则表明加入后模型的预测能力更强。

5.预测

置信区间: 确定 yh 与线性模型f(X)的接近程度。
置信区间说明 这个区间有95%的概率包括f(X)的真实值;
预测区间
预测区间说明 这个区间有95%的概率包含预测响应变量Y。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章