(ISLR-note)Chapter3-2多元線性迴歸

多元線性迴歸

1.估計係數(estimating coefficient)

選擇Beta0,Beta1使殘差平方和最小。

Bj 解釋爲在所有其他預測變量保持不變的情況下,Xj增加一個單位對Y產生的平均效果。

“在將溫度變量納入模型之後,同時用冰激凌銷量和溫度對鯊魚攻擊量建立多元迴歸模型,與直覺相符的結論才能產生出來,冰激凌銷量這一預測變量變得不再顯著”————解釋了多元線性迴歸優於簡單線性迴歸的原因。

2.假設檢驗:確定響應變量和預測變量是否相關

(1)零假設H0: B1 = B2 = B3… = Bp = 0

(2)備擇假設Ha: 至少有一個Bj不爲0

這個假設檢驗需要用到F統計量(F-statistic)。
當響應變量與預測變量無關,F統計量應該接近1;否則,F大於1.

Q: 當F統計量更接近於1時,F需要多大才能拒絕H0?
補:若F統計量的p值幾乎爲零,則表明至少有一個廣告變量與響應變量有關。

要判斷某個預測變量是否與響應變量是否有關,不僅要看該預測變量對應的p值,(如果任意變量的p值很小,那麼至少有一個預測變量與響應變量相關),還要看整體的F統計量*(因爲當預測變量的數目很大的時候,必定會出現某個變元的p值<0.05)*。

3.選定重要變量

Q: 如何在諸多預測變量中,剔除與響應變量無關的變量,挑選出真正與預測變量相關的子集呢?(變量選擇在第6章中有進一步研究)

4.模型擬合

衡量模型擬合優劣的指標是RSER^2(方差的解釋比例)。
R^2:
若假如新的預測變量x後,模型的 R ^2 較未加入變元x的 R ^2大幅增加,則表明加入後模型的預測能力更強。【應該注意的是,當更多的變量進入模型時,即使新加入的變量與響應變量的關聯很弱, R^2也一定會增加】

若R^2值接近1,則表明該模型能解釋響應變量的大部分方差。

RSE:
若假如新的預測變量x後,模型的RSE 較未加入變元x的 RSE減少,則表明加入後模型的預測能力更強。

5.預測

置信區間: 確定 yh 與線性模型f(X)的接近程度。
置信區間說明 這個區間有95%的概率包括f(X)的真實值;
預測區間
預測區間說明 這個區間有95%的概率包含預測響應變量Y。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章