統計學第十二週:迴歸分析
一、 概念
迴歸分析主要解決的問題有:
(1)從一組樣本數據出發,確定變量之間的數學關係式
(2)對這些關係式的可信程度進行各種統計檢驗,並從影響某一特定變量的諸多變量中找出那些變量的影響是顯著的,那些事不顯著的。
(3)利用所求的關係式,根據一個或幾個變量的取值來估計或預測另一個特定變量的取值,並給出這種估計或預測的可靠程度。
-
一元線性迴歸
1.1 相關關係
⚛️ 如果兩個變量,一個增長另一個也隨之增長,則成爲正相關,反之爲負相關。可以用散點圖初步展示一下數據的相關關係。
👟相關係數:correlation coefficient ,是根據樣本數據計算的度量兩個變量之間線性關係強度的統計量。若相關係數是根據總體全部數據計算的,
稱爲總體相關系數,記爲ρ;若是根據樣本數據計算的,稱爲樣本相關系數,記爲γ
樣本相關系數的計算公式γ=n∑x2−(∑x)2n∑y2−(∑y)2n∑xy−∑x∑y
按照上述公式計算的相關係數也稱爲線性相關係數 linear correlation coefficient ,或稱爲Pearson 相關係數(Pearson’s correlation coefficient)。
🛰相關係數r的取值範圍爲[-1,1],如果爲正,表明兩者間存在正線性相關關係,如果爲負,則是負線性相關關係。若r=+1 ,表明完全正線性相關關係,如r=-1,表明x與y間爲完全負線性相關關係。r=0時,表明兩者不存在線性相關關係。r具有對稱性。
1.2 最小二乘法
對於第i個x值,估計的迴歸方程可表示爲:
yi=β0+β1xi
利用德國科學家卡爾-高斯提出的最小化圖中垂直方向的離差平方和來估計參數,根據這一方法確定模型參數的方法稱爲最小二乘法,也稱爲最小平方法。
根據最小二乘法,使Q=∑(yi−yi)2=∑(yi−β0−β1xi)2,最小
求偏導數,得到∂β0∂Q∣β0=β0=−2i=1∑n(yi−β0−β1xi)=0
∂β1∂Q∣β1=β1=−2i=1∑nxi(yi−β0−β1xi)=0
然後求解方程組,(截距通常沒有物理意義)
當x=x時,y=y,即回歸直線通過(x,y),這是重要的特徵。
1.3 擬合優度檢測
迴歸直線與各觀測點的接近程度稱爲迴歸直線對數據的擬合優度 goodness of fit。直線的擬合優度,需要計算判定係數。
判定係數是對估計的迴歸方程擬合優度的度量。
總平方和:SST=∑(yi−y)2
SST=∑(yi−y)2=∑(yi−yi)2+∑(yi−y)2
SST=SSE+SSR,SSE爲殘差平方和或誤差平方和(x對y線性影響之外的其他因素引起的y的變化),SSR爲回歸執行,即X變化引起的y的變化,稱爲回歸平方和。
判定係數coefficient of determination ,迴歸平方和佔總平方和的比例稱爲判定係數
判定系數R2=SSTSSR=∑(yi−y)2∑(yi−y)2=1−∑(yi−y)2∑(yi−yi)2
判定係數測度了迴歸直線對觀測數據的擬合程度。範圍[0,1],在一元線性迴歸中,相關係數r實際上是判定係數的平方根。判定係數爲1,則擬合是完全的;當判定係數爲0時,兩者完全沒有關係。相關係數與直線的斜率符號是一致的。
注:用r說明迴歸直線的擬合優度要慎重。
1.4 顯著性實驗
一般情況下,總體相關系系數ρ是未知的,通常將樣本相關系數γ作爲ρ的近似估計值。
這樣根據抽樣,往往會具有波動性,考察樣本相關係數的可靠性,就需要進行顯著性檢驗。
🔽 r的抽樣分佈
🔽r的顯著性檢驗
對r抽樣分佈,如果假設服從正態檢驗,具有很大的風險,依據經驗採用費希爾提出的T檢驗,該檢驗可以用於小樣本,也可以用於大樣本。
迴歸分析的主要目的是根據所建立的估計方程用自變量x來估計或預測因變量y的取值。但是建立方程後,還需要通過檢驗來驗證是否真的滿足整體。
迴歸分析中的顯著性檢驗主要包括兩方面:一是線性關係的檢驗;二是迴歸係數的檢驗。
⚖️線性關係檢驗是檢驗自變量x和因變量y之間的線性關係是否顯著。
F=SSE/(n−2)SSR/1,服從分子自由度爲1,分母自由度爲n−2的F分布。
假設的步驟:
1:提出假設,H0:β1=0兩個變量之前線性關系不顯著
2.計算檢驗統計量F=SSE/(N−2)SSR/1=MSEMSR
3.做出決策。確定顯著性水平,並根據分子自由度和分母自由度查找F分布表,找到響應的臨界值Fα。若F>Fα,則拒絕H0,表明兩個變量之間的線性關系是顯著的;若<,不拒絕假設,則沒有證據表明兩個變量之間的線性關系。
⚖️迴歸係數的檢驗,是要檢驗自變量對因變量的影響是否顯著。
1.假設檢驗H0:β1=0,H1:β1=0
2.計算檢驗統計量t=β1/sβ1
3.做出決策。確定顯著性水平α,並根據自由度n−2查t分布表,找到相應的臨界值tα/2。若∣∣
若∣t∣>tα/2則拒絕H0,則回歸系數等於0的可能性小於α,表明自變量x對因變量y的影響是顯著的。
在一元線性迴歸中因爲只有一個自變量,F檢驗和t檢驗是等價的,但在多元迴歸分析中,這兩種的意義是不同。
1.5 迴歸預測
y=f(x)的關係,利用一系列x,y的值需求一個數學表達式,從而利用已知的X來預測y值的過程。當迴歸中只涉及一個自變量時,稱爲一元迴歸,若因變量y與自變量x之間爲線性關係,則稱爲一元線性迴歸。
一元線性回歸模型:y=β0+β1x+ϵ
ϵ爲誤差項,y是x的線性函數(β0+β1x),反映了由於x的變化而引起的y的線性變化。
[
根據回歸模型中的假定,ϵ的期望值等於0,因此y的期望值E(Y)=β0+beta1x,也就是說y的期望值是x的線性函數。
描述因變量y的期望值如何依賴於自變量x的方程稱爲迴歸方程。
🔽估計的迴歸方程 estimated regression equation
y=β0+β1x
1.6 殘差分析
判定係數可以用於度量回歸直線的擬合程度,相關係數也可以起到類似的作用。而殘差平方和則可以說明實際觀測值與迴歸估計值之間的差異程度。
估計標準誤差standard error of estimate就是度量各實際觀測點在直線周圍的散佈狀況的一個統計量,他是均方殘差MSE的平方根,
Se=n−2∑(yi−yi)2=n−2SSE=MSE
KaTeX parse error: Undefined control sequence: \epsison at position 4:
假定\̲e̲p̲s̲i̲s̲o̲n̲是否成立,方法之一就是進行殘差…
殘差是因變量的觀測值與根據估計的迴歸方程求出的預測值之差。e表示;也可以通過標準化殘差。標準化殘差是殘差除以它的標準差之後得到的數值也稱爲pearson殘差。
-
多元線性迴歸
2.1 多重共線性
KaTeX parse error: Undefined control sequence: \elpson at position 55: …...+\beta_kx_k+\̲e̲l̲p̲s̲o̲n̲
̲
多元迴歸,參數的最小二乘估計,等參考一元線性迴歸計算方式。
在迴歸模型中兩個或兩個以上的自變量彼此相關時,稱爲迴歸模型中存在多重共線性。
檢測多重共線性的一個方法是用對各相關係數進行顯著性檢驗。如果一個或多個相關係數是顯著的,就表明模型中所使用的自變量之間相關。
2.2 變量選擇與逐步迴歸
選擇自變量的原則是對統計量進行顯著性檢驗,檢驗的依據是:將一個或一個以上的自變量引入迴歸模型中時,是否使殘差平方和SSE顯著減少。
變量的選擇方法主要有:向前選擇forward selection 、向後剔除 backward elimination 、逐步迴歸stepwise regression 、最優子集等。
逐步迴歸:融合向前選擇和向後剔除的方法。:按照此方法不停的增加變量並考慮剔除以前增加的變量的可能性,直至增加變量不會導致SSE顯著減少,這個過程可以用F統計量來檢驗。