(ISLR-note)Chapter3-3迴歸模型中的其他注意事項

線性模型的擴展

1.兩個概念:可加性與線性性

①可加性

可加性是指預測變量Xj的變化對響應變量Y產生的影響與其他預測變量的取指無關。線性假設是指無論Xj取何值, Xj變化一個單位引起的響應變量Y的變化是恆定的。

②線性關係

響應變量跟預測變量未必是線性,有時是多項式迴歸

2.去除可加性假設

注意到:當TV或radio其中之一較低時,真實sales總是低於線性模型的預測。但當兩種媒體共享廣告費時,模型往往會低估sales。說明兩變量存在交互作用。

當預測變量之間存在交互作用時,即某變量的增加,會導致其他變量也增加,我們應該加入交互項X1X2…Xp,如

Y = B0 + B1X1 + B2X2 + B3X1X2 + e

**需要注意的是:**如果模型中含有交互項,那麼即使主效應的係數的p值不顯著,也應包含在模型中。

3.非線性關係

多項式迴歸:若數據呈現一種曲線關係,則考慮用多項式迴歸

eg: mpg = B0 + B1 · horsepower + B2 · horsepower^2 + e

多元線性迴歸模型仍然屬於 線性模型。值得注意的是:變量次方一般不大於3或4。

4.數據的非線性

殘差圖:用於識別數據的非線性
簡單線性迴歸,繪製的是殘差 ei = y - yih 和 預測變量的xi的散點圖;
多元迴歸中,繪製殘差預測值yih的散點圖。

注:理想情況下,殘差圖顯示不出明顯的規律,若有規律,則表示線性模型某些方面有問題。

如果殘差圖表明數據中存在非線性關係,那麼一種簡單的關係是在模型中使用預測變量的非線性變換,如logX,根號X和 X^2.

5.誤差項方差非恆定

線性模型假設誤差項的方差是恆定的,即VAR(ei) = theta^2。
若殘差圖呈現漏斗狀,說明誤差項方差非恆定,可以用凹函數對響應值y做變換,比如logY 和 根號Y。

6.離羣點

繪製學生化殘差圖(studentized residual)可輕易判斷離羣點。
若發現離羣點,一個解決方案就是直接刪除。但是我們應該小心,因爲一個離羣點可能不是由失誤造成,而是暗示模型存在缺陷。

7.高槓杆點

待補

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章