統計學第十二週:迴歸分析

統計學第十二週:迴歸分析

一、 概念

迴歸分析主要解決的問題有:

(1)從一組樣本數據出發,確定變量之間的數學關係式

(2)對這些關係式的可信程度進行各種統計檢驗,並從影響某一特定變量的諸多變量中找出那些變量的影響是顯著的,那些事不顯著的。

(3)利用所求的關係式,根據一個或幾個變量的取值來估計或預測另一個特定變量的取值,並給出這種估計或預測的可靠程度。

  1. 一元線性迴歸

    1.1 相關關係

    ⚛️ 如果兩個變量,一個增長另一個也隨之增長,則成爲正相關,反之爲負相關。可以用散點圖初步展示一下數據的相關關係。

    👟相關係數:correlation coefficient ,是根據樣本數據計算的度量兩個變量之間線性關係強度的統計量。若相關係數是根據總體全部數據計算的,
    ρ;γ 稱爲總體相關係數,記爲\rho ;若是根據樣本數據計算的,稱爲樣本相關係數 ,記爲 \gamma

    γ=nxyxynx2(x)2ny2(y)2 樣本相關係數的計算公式\gamma = \frac{n\sum{xy}-\sum{x}\sum{y}}{\sqrt{n\sum{x^2}-(\sum{x})^2}\sqrt{n\sum{y^2}-(\sum{y})^2}}

    按照上述公式計算的相關係數也稱爲線性相關係數 linear correlation coefficient ,或稱爲Pearson 相關係數(Pearson’s correlation coefficient)。

    🛰相關係數r的取值範圍爲[-1,1],如果爲正,表明兩者間存在正線性相關關係,如果爲負,則是負線性相關關係。若r=+1 ,表明完全正線性相關關係,如r=-1,表明x與y間爲完全負線性相關關係。r=0時,表明兩者不存在線性相關關係。r具有對稱性。

    1.2 最小二乘法

    對於第i個x值,估計的迴歸方程可表示爲:
    y^i=β^0+β^1xi \widehat{y}_i=\widehat{\beta}_0+\widehat{\beta}_1x_i
    利用德國科學家卡爾-高斯提出的最小化圖中垂直方向的離差平方和來估計參數,根據這一方法確定模型參數的方法稱爲最小二乘法,也稱爲最小平方法。

在這裏插入圖片描述
使Q=(yiy^i)2=yiβ^0β^1xi2, 根據最小二乘法,使Q=\sum(y_i-\widehat{y}_i)^2=\sum{(y_i-\widehat{\beta}_0-\widehat{\beta}_1x_i)}^2 ,最小

Qβ0β0=β^0=2i=1n(yiβ^0β^1xi)=0 求偏導數,得到\frac{\partial Q}{\partial \beta_0}|_{\beta_0=\widehat{\beta}_0}=-2\sum_{i=1}^{n}(y_i-\widehat{\beta}_0-\widehat{\beta}_1x_i)=0

Qβ1β1=β^1=2i=1nxi(yiβ^0β^1xi)=0 \frac{\partial{Q}}{\partial{\beta}_1}|_{\beta_1=\widehat{\beta}_1}=-2\sum_{i=1}^{n}x_i(y_i-\widehat{\beta}_0-\widehat{\beta}_1x_i)=0

然後求解方程組,(截距通常沒有物理意義)
x=xy^=y,(x,y), 當x=\overline{x}時,\widehat{y}=\overline{y},即迴歸直線通過(\overline{x},\overline{y}),這是重要的特徵。
1.3 擬合優度檢測

迴歸直線與各觀測點的接近程度稱爲迴歸直線對數據的擬合優度 goodness of fit。直線的擬合優度,需要計算判定係數。

判定係數是對估計的迴歸方程擬合優度的度量。
SST=(yiy)2 總平方和:SST=\sum{(y_i-\overline{y})^2}

SST=(yiy)2=(yiyi)2+(y^iy)2 SST=\sum(y_i-\overline{y})^2=\sum{(y_i-\overline{y}_i)^2}+\sum{(\widehat{y}_i-\overline{y})^2}

SST=SSE+SSR,SSExyySSRXy SST=SSE+SSR,SSE爲殘差平方和或誤差平方和(x對y線性影響之外的其他因素引起的y的變化),SSR爲迴歸執行,即X變化引起的y的變化,稱爲迴歸平方和。

在這裏插入圖片描述

判定係數coefficient of determination ,迴歸平方和佔總平方和的比例稱爲判定係數
R2=SSRSST=(y^iy)2(yiy)2=1(yiy^i)2(yiy)2 判定係數R^2=\frac{SSR}{SST}=\frac{\sum{(\widehat{y}_i-\overline{y})^2}}{\sum{(y_i-\overline{y})^2}}=1-\frac{\sum{(y_i-\widehat{y}_i)^2}}{\sum{(y_i-\overline{y})^2}}
判定係數測度了迴歸直線對觀測數據的擬合程度。範圍[0,1],在一元線性迴歸中,相關係數r實際上是判定係數的平方根。判定係數爲1,則擬合是完全的;當判定係數爲0時,兩者完全沒有關係。相關係數與直線的斜率符號是一致的。

注:用r說明迴歸直線的擬合優度要慎重。

1.4 顯著性實驗
ργρ 一般情況下,總體相關係係數\rho是未知的,通常將樣本相關係數\gamma作爲\rho的近似估計值。
這樣根據抽樣,往往會具有波動性,考察樣本相關係數的可靠性,就需要進行顯著性檢驗。

🔽 r的抽樣分佈

在這裏插入圖片描述
🔽r的顯著性檢驗

對r抽樣分佈,如果假設服從正態檢驗,具有很大的風險,依據經驗採用費希爾提出的T檢驗,該檢驗可以用於小樣本,也可以用於大樣本。

在這裏插入圖片描述

迴歸分析的主要目的是根據所建立的估計方程用自變量x來估計或預測因變量y的取值。但是建立方程後,還需要通過檢驗來驗證是否真的滿足整體。

迴歸分析中的顯著性檢驗主要包括兩方面:一是線性關係的檢驗;二是迴歸係數的檢驗。

⚖️線性關係檢驗是檢驗自變量x和因變量y之間的線性關係是否顯著。
F=SSR/1SSE/(n2)1n2F F=\frac{SSR/1}{SSE/(n-2)},服從分子自由度爲1,分母自由度爲n-2的F分佈。
假設的步驟:
1H0:β1=0 1:提出假設,H_0: \beta_1=0 兩個變量之前線性關係不顯著

2.F=SSR/1SSE/(N2)=MSRMSE 2.計算檢驗統計量F = \frac{SSR/1}{SSE/(N-2)}=\frac{MSR}{MSE}

3.FFαF>Fα,H0,< 3.做出決策。確定顯著性水平,並根據分子自由度和分母自由度查找F分佈表,找到響應的臨界值F_\alpha。 若F>F_\alpha,則拒絕H_0,表明兩個變量之間的線性關係是顯著的;若<,不拒絕假設,則沒有證據表明兩個變量之間的線性關係。

⚖️迴歸係數的檢驗,是要檢驗自變量對因變量的影響是否顯著。
1.H0:β1=0,H1:β10 1.假設檢驗H_0: \beta_1=0,H_1: \beta_1 \neq 0

2.t=β^1/sβ^1 2.計算檢驗統計量t = \widehat{\beta}_1/s_{\widehat{\beta}_1}

3.α,n2ttα/2 3. 做出決策。確定顯著性水平\alpha,並根據自由度n-2查t分佈表,找到相應的臨界值t_{\alpha /2}。若||

t>tα/2H0,0αxy 若|t|>t_{\alpha/2}則拒絕H_0,則迴歸係數等於0的可能性小於\alpha,表明自變量x對因變量y的影響是顯著的。

在一元線性迴歸中因爲只有一個自變量,F檢驗和t檢驗是等價的,但在多元迴歸分析中,這兩種的意義是不同。

1.5 迴歸預測

y=f(x)的關係,利用一系列x,y的值需求一個數學表達式,從而利用已知的X來預測y值的過程。當迴歸中只涉及一個自變量時,稱爲一元迴歸,若因變量y與自變量x之間爲線性關係,則稱爲一元線性迴歸。
y=β0+β1x+ϵ 一元線性迴歸模型: y=\beta_0+\beta_1x+\epsilon

ϵ,yx(β0+β1x)xy \epsilon 爲誤差項,y是x的線性函數 (\beta_0+\beta_1x),反映了由於x的變化而引起的y的線性變化。

在這裏插入圖片描述
[在這裏插入圖片描述
ϵ0yE(Y)=β0+beta1x,yx 根據迴歸模型中的假定,\epsilon的期望值等於0,因此y的期望值E(Y)=\beta_0+beta_1x,也就是說y的期望值是x的線性函數。
描述因變量y的期望值如何依賴於自變量x的方程稱爲迴歸方程。

🔽估計的迴歸方程 estimated regression equation
y^=β^0+β^1x \widehat{y}= \widehat{\beta}_0+\widehat{\beta}_1x

1.6 殘差分析

判定係數可以用於度量回歸直線的擬合程度,相關係數也可以起到類似的作用。而殘差平方和則可以說明實際觀測值與迴歸估計值之間的差異程度。

估計標準誤差standard error of estimate就是度量各實際觀測點在直線周圍的散佈狀況的一個統計量,他是均方殘差MSE的平方根,
Se=(yiy^i)2n2=SSEn2=MSE S_e=\sqrt{\frac{\sum(y_i-\widehat{y}_i)^2}{n-2}}=\sqrt{\frac{SSE}{n-2}}=\sqrt{MSE}

KaTeX parse error: Undefined control sequence: \epsison at position 4: 假定\̲e̲p̲s̲i̲s̲o̲n̲是否成立,方法之一就是進行殘差…

殘差是因變量的觀測值與根據估計的迴歸方程求出的預測值之差。e表示;也可以通過標準化殘差。標準化殘差是殘差除以它的標準差之後得到的數值也稱爲pearson殘差。

  1. 多元線性迴歸

    2.1 多重共線性
    KaTeX parse error: Undefined control sequence: \elpson at position 55: …...+\beta_kx_k+\̲e̲l̲p̲s̲o̲n̲ ̲
    多元迴歸,參數的最小二乘估計,等參考一元線性迴歸計算方式。

    在迴歸模型中兩個或兩個以上的自變量彼此相關時,稱爲迴歸模型中存在多重共線性。

    檢測多重共線性的一個方法是用對各相關係數進行顯著性檢驗。如果一個或多個相關係數是顯著的,就表明模型中所使用的自變量之間相關。

    2.2 變量選擇與逐步迴歸

    選擇自變量的原則是對統計量進行顯著性檢驗,檢驗的依據是:將一個或一個以上的自變量引入迴歸模型中時,是否使殘差平方和SSE顯著減少。

    變量的選擇方法主要有:向前選擇forward selection 、向後剔除 backward elimination 、逐步迴歸stepwise regression 、最優子集等。

    逐步迴歸:融合向前選擇和向後剔除的方法。:按照此方法不停的增加變量並考慮剔除以前增加的變量的可能性,直至增加變量不會導致SSE顯著減少,這個過程可以用F統計量來檢驗。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章