《統計學》筆記:第12章 多元線性迴歸

多元迴歸模型 multiple regression model

設因變量爲y,k個自變量分別爲x1,x2,…,xk,描述因變量y如何依賴於自變量x1,x2,…,xk和誤差項ε的方程稱爲多元迴歸模型。其一般形式可表示爲:
y=β0+β1x1+β2x2+...+βkxk+ϵ y=\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_kx_k+\epsilon
式中,β0,β1,β2,…,βk是模型的參數;ε爲誤差項。

多元迴歸方程 multiple regression equation

多元迴歸方程,描述了因變量y的期望值與自變量x1,x2,…,xk之間的關係。一般形式可表示爲:
E(y)=β0+β1x1+β2x2+...+βkxk E(y)=\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_kx_k
估計的多元迴歸方程 estimated multiple regression equation

迴歸方程中的參數是未知的,需要利用樣本數據去估計它們。當用樣本統計量去估計迴歸方程中的未知參數時,就得到了估計的多元迴歸方程,其一般形式爲:
y^=β^0+β^1x1+β^2x2+...+β^kxk \hat{y}=\hat\beta_0+\hat\beta_1x_1+\hat\beta_2x_2+...+\hat\beta_kx_k
多重判定係數 multiple coefficient of determination

多重判定洗漱是多元迴歸中的迴歸平方和佔總平方和的比例,它是度量多元迴歸方程擬合程度的一個統計量,反映了在因變量y的變差中被估計的迴歸方程所解釋的比例。其定義如下:
R2=SSRSST=1SSESST R^2=\frac{SSR}{SST}=1-\frac{SSE}{SST}
調整的多重判定係數 adjusted multiple coefficient of determination

因爲隨着自變量個數的增加將影響到因變量中被估計的迴歸方程所解釋的變差數量。當增加自變量時,會使預測誤差變得較小,從而減少殘差平方和SSE。由於迴歸平方和SSR=SST-SSE,當SSE變小時,SSR就會變大,從而使R2變大。如果模型中增加一個自變量,即使這個自變量在統計上並不顯著,R2也會變大。因此,爲避免增加自變量而高估R2,統計學家提出用樣本量n和自變量的個數k去調整R2,計算出調整的多重判定係數,記爲Ra^2,其計算公式爲:
Ra2=1(1R2)(n1nk1) R^2_{a}=1-(1-R^2)(\frac{n-1}{n-k-1})
多重共線性 multicollinearity

當迴歸模型中兩個或兩個以上的自變量彼此相關時,則稱迴歸模型中存在多重共線性。在實際問題中,所使用的自變量之間存在相關是一件很平常的事,但是在迴歸分析中存在多重共線性將會產生某些問題:首先,變量之間高度相關時,可能會使迴歸的結果混亂,甚至會把分析引入歧途;其次,多重共線性可能對參數估計值的正負號產生影響,特別是βi的正負號有可能同預期的正負號相反。

檢測多重共線性的方法有多重,其中最簡單的一種方法是計算模型中各對自變量之間的相關係數,並對各相關係數進行顯著性檢驗。如果有一個或多個相關係數是顯著的,就表示模型中所使用的自變量之間相關,因而存在多重共線性問題。

具體來說,如果出現下列情況,暗示存在多重共線性:

1.模型中各對自變量之間顯著相關。

2.當模型的線性關係檢驗(F檢驗)顯著時,幾乎所有迴歸係數βi的t檢驗卻不顯著。

3.迴歸係數的正負號與預期的相反。

4.容忍度與方差擴大因子,一般認爲方差擴大因子大於10時,存在嚴重的多重共線性。

容忍度 tolerance

(在多元迴歸模型中)某個自變量的容忍度等於1減去該自變量爲因變量而其他k-1個自變量爲預測變量時所得到的線性迴歸模型的判定係數,即1-Ri^2。容忍度越小,多重共線性越嚴重。

方差擴大因子 variance inflation factor / VIF

(在多元迴歸模型中)方差擴大因子等於容忍度的倒數,即VIF=1/(1-Ri^2)。顯然,VIF越大, 多重共線性越嚴重。一般認爲VIF大於10時,存在嚴重的多重共線性。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章