統計學第十二週：迴歸分析

一、概念

迴歸分析主要解決的問題有：

（1）從一組樣本數據出發，確定變量之間的數學關係式

（2）對這些關係式的可信程度進行各種統計檢驗，並從影響某一特定變量的諸多變量中找出那些變量的影響是顯著的，那些事不顯著的。

（3）利用所求的關係式，根據一個或幾個變量的取值來估計或預測另一個特定變量的取值，並給出這種估計或預測的可靠程度。

一元線性迴歸

1.1 相關關係

⚛️ 如果兩個變量，一個增長另一個也隨之增長，則成爲正相關，反之爲負相關。可以用散點圖初步展示一下數據的相關關係。

👟相關係數：correlation coefficient ,是根據樣本數據計算的度量兩個變量之間線性關係強度的統計量。若相關係數是根據總體全部數據計算的，
$稱爲總體相關係數，記爲\rho ;若是根據樣本數據計算的，稱爲樣本相關係數，記爲 \gamma$

$樣本相關係數的計算公式\gamma = \frac{n\sum{xy}-\sum{x}\sum{y}}{\sqrt{n\sum{x^2}-(\sum{x})^2}\sqrt{n\sum{y^2}-(\sum{y})^2}}$

按照上述公式計算的相關係數也稱爲線性相關係數 linear correlation coefficient ,或稱爲Pearson 相關係數（Pearson’s correlation coefficient）。

🛰相關係數r的取值範圍爲[-1,1],如果爲正，表明兩者間存在正線性相關關係，如果爲負，則是負線性相關關係。若r=+1 ,表明完全正線性相關關係，如r=-1，表明x與y間爲完全負線性相關關係。r=0時，表明兩者不存在線性相關關係。r具有對稱性。

1.2 最小二乘法

對於第i個x值，估計的迴歸方程可表示爲：
$\widehat{y}_i=\widehat{\beta}_0+\widehat{\beta}_1x_i$
利用德國科學家卡爾-高斯提出的最小化圖中垂直方向的離差平方和來估計參數，根據這一方法確定模型參數的方法稱爲最小二乘法，也稱爲最小平方法。

$根據最小二乘法，使Q=\sum(y_i-\widehat{y}_i)^2=\sum{（y_i-\widehat{\beta}_0-\widehat{\beta}_1x_i）}^2 ,最小$

$求偏導數，得到\frac{\partial Q}{\partial \beta_0}|_{\beta_0=\widehat{\beta}_0}=-2\sum_{i=1}^{n}(y_i-\widehat{\beta}_0-\widehat{\beta}_1x_i)=0$

$\frac{\partial{Q}}{\partial{\beta}_1}|_{\beta_1=\widehat{\beta}_1}=-2\sum_{i=1}^{n}x_i(y_i-\widehat{\beta}_0-\widehat{\beta}_1x_i)=0$

然後求解方程組，（截距通常沒有物理意義）
$當x=\overline{x}時，\widehat{y}=\overline{y},即迴歸直線通過(\overline{x},\overline{y}),這是重要的特徵。$
1.3 擬合優度檢測

迴歸直線與各觀測點的接近程度稱爲迴歸直線對數據的擬合優度 goodness of fit。直線的擬合優度，需要計算判定係數。

判定係數是對估計的迴歸方程擬合優度的度量。
$總平方和：SST=\sum{(y_i-\overline{y})^2}$

$SST=\sum(y_i-\overline{y})^2=\sum{(y_i-\overline{y}_i)^2}+\sum{(\widehat{y}_i-\overline{y})^2}$

$SST=SSE+SSR,SSE爲殘差平方和或誤差平方和（x對y線性影響之外的其他因素引起的y的變化），SSR爲迴歸執行，即X變化引起的y的變化，稱爲迴歸平方和。$

判定係數coefficient of determination ，迴歸平方和佔總平方和的比例稱爲判定係數
$判定係數R^2=\frac{SSR}{SST}=\frac{\sum{(\widehat{y}_i-\overline{y})^2}}{\sum{(y_i-\overline{y})^2}}=1-\frac{\sum{(y_i-\widehat{y}_i)^2}}{\sum{(y_i-\overline{y})^2}}$
判定係數測度了迴歸直線對觀測數據的擬合程度。範圍[0,1],在一元線性迴歸中，相關係數r實際上是判定係數的平方根。判定係數爲1，則擬合是完全的；當判定係數爲0時，兩者完全沒有關係。相關係數與直線的斜率符號是一致的。

注：用r說明迴歸直線的擬合優度要慎重。

1.4 顯著性實驗
$一般情況下，總體相關係係數\rho是未知的，通常將樣本相關係數\gamma作爲\rho的近似估計值。$
這樣根據抽樣，往往會具有波動性，考察樣本相關係數的可靠性，就需要進行顯著性檢驗。

🔽 r的抽樣分佈

🔽r的顯著性檢驗

對r抽樣分佈，如果假設服從正態檢驗，具有很大的風險，依據經驗採用費希爾提出的T檢驗，該檢驗可以用於小樣本，也可以用於大樣本。

迴歸分析的主要目的是根據所建立的估計方程用自變量x來估計或預測因變量y的取值。但是建立方程後，還需要通過檢驗來驗證是否真的滿足整體。

迴歸分析中的顯著性檢驗主要包括兩方面：一是線性關係的檢驗；二是迴歸係數的檢驗。

⚖️線性關係檢驗是檢驗自變量x和因變量y之間的線性關係是否顯著。
$F=\frac{SSR/1}{SSE/(n-2)}，服從分子自由度爲1，分母自由度爲n-2的F分佈。$
假設的步驟：
$1：提出假設，H_0: \beta_1=0 兩個變量之前線性關係不顯著$

$2.計算檢驗統計量F = \frac{SSR/1}{SSE/(N-2)}=\frac{MSR}{MSE}$

$3.做出決策。確定顯著性水平，並根據分子自由度和分母自由度查找F分佈表，找到響應的臨界值F_\alpha。若F>F_\alpha,則拒絕H_0,表明兩個變量之間的線性關係是顯著的；若<，不拒絕假設，則沒有證據表明兩個變量之間的線性關係。$

⚖️迴歸係數的檢驗，是要檢驗自變量對因變量的影響是否顯著。
$1.假設檢驗H_0: \beta_1=0,H_1: \beta_1 \neq 0$

$2.計算檢驗統計量t = \widehat{\beta}_1/s_{\widehat{\beta}_1}$

$3. 做出決策。確定顯著性水平\alpha,並根據自由度n-2查t分佈表，找到相應的臨界值t_{\alpha /2}。若||$

$若|t|>t_{\alpha/2}則拒絕H_0,則迴歸係數等於0的可能性小於\alpha，表明自變量x對因變量y的影響是顯著的。$

在一元線性迴歸中因爲只有一個自變量，F檢驗和t檢驗是等價的，但在多元迴歸分析中，這兩種的意義是不同。

1.5 迴歸預測

y=f(x)的關係，利用一系列x,y的值需求一個數學表達式，從而利用已知的X來預測y值的過程。當迴歸中只涉及一個自變量時，稱爲一元迴歸，若因變量y與自變量x之間爲線性關係，則稱爲一元線性迴歸。
$一元線性迴歸模型： y=\beta_0+\beta_1x+\epsilon$

$\epsilon 爲誤差項,y是x的線性函數 (\beta_0+\beta_1x)，反映了由於x的變化而引起的y的線性變化。$

[
$根據迴歸模型中的假定，\epsilon的期望值等於0，因此y的期望值E(Y)=\beta_0+beta_1x,也就是說y的期望值是x的線性函數。$
描述因變量y的期望值如何依賴於自變量x的方程稱爲迴歸方程。

🔽估計的迴歸方程 estimated regression equation
$\widehat{y}= \widehat{\beta}_0+\widehat{\beta}_1x$

1.6 殘差分析

判定係數可以用於度量回歸直線的擬合程度，相關係數也可以起到類似的作用。而殘差平方和則可以說明實際觀測值與迴歸估計值之間的差異程度。

估計標準誤差standard error of estimate就是度量各實際觀測點在直線周圍的散佈狀況的一個統計量，他是均方殘差MSE的平方根，
$S_e=\sqrt{\frac{\sum(y_i-\widehat{y}_i)^2}{n-2}}=\sqrt{\frac{SSE}{n-2}}=\sqrt{MSE}$

$KaTeX parse error: Undefined control sequence: \epsison at position 4: 假定\̲e̲p̲s̲i̲s̲o̲n̲是否成立，方法之一就是進行殘差…$

殘差是因變量的觀測值與根據估計的迴歸方程求出的預測值之差。e表示；也可以通過標準化殘差。標準化殘差是殘差除以它的標準差之後得到的數值也稱爲pearson殘差。

多元線性迴歸

2.1 多重共線性
$KaTeX parse error: Undefined control sequence: \elpson at position 55: …...+\beta_kx_k+\̲e̲l̲p̲s̲o̲n̲ ̲$
多元迴歸，參數的最小二乘估計，等參考一元線性迴歸計算方式。

在迴歸模型中兩個或兩個以上的自變量彼此相關時，稱爲迴歸模型中存在多重共線性。

檢測多重共線性的一個方法是用對各相關係數進行顯著性檢驗。如果一個或多個相關係數是顯著的，就表明模型中所使用的自變量之間相關。

2.2 變量選擇與逐步迴歸

選擇自變量的原則是對統計量進行顯著性檢驗，檢驗的依據是：將一個或一個以上的自變量引入迴歸模型中時，是否使殘差平方和SSE顯著減少。

變量的選擇方法主要有：向前選擇forward selection 、向後剔除 backward elimination 、逐步迴歸stepwise regression 、最優子集等。

逐步迴歸：融合向前選擇和向後剔除的方法。：按照此方法不停的增加變量並考慮剔除以前增加的變量的可能性，直至增加變量不會導致SSE顯著減少，這個過程可以用F統計量來檢驗。

統計學第十二週：迴歸分析

DAPPER 事務 TRANSACTION

機器學習第四周線性迴歸算法

數據可視化-第六週

統計學第十二週：迴歸分析

統計學第十三週線性分析

統計學第八週：參數統計

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結