《統計學》筆記：第11章一元線性迴歸

變量之間的關係可以分爲兩種類型，即函數關係和相關關係。

函數關係 functional relationship

函數關係是一一對應的確定關係。設有兩個變量x和y，變量y隨變量x一起變化，並完全依賴於x，當變量x取某個數值時，y依確定的關係取相應的值，則稱y是x的函數，其中x稱爲自變量，y稱爲因變量。

相關關係 correlation

由於影響一個變量的因素非常多，造成了變量之間關係的不確定性。變量之間存在的不確定的數量關係，稱爲相關關係。相關關係具有如下特點：一個變量的取值不能由另一個變量唯一確定，當變量x取某個值時，變量y的取值可能有幾個。對這種關係不確定的變量顯然不能用函數關係進行描述，但也不是無任何規律可循。通過對大量數據的觀察與研究，就會發現許多變量之間確實存在着一定的客觀規律。

散點圖 scatter diagram

對於兩個bianliangx和y，通過觀察或實驗可以得到若干組數據，記爲(xi,yi)(i=1,2,…,n)。用座標的橫軸代表變量x，縱軸代表變量y，每組數據(xi,yi)在座標系中用一個點表示，n組數據在座標系中形成的n個點稱爲散點，由座標及其散點形成的二維數據圖稱爲散點圖。散點圖是描述變量之間關係的一種直觀方法，從中可以大體上看出變量之間的關係形態及關係強度。

相關係數 correlation coefficient

相關係數是根據樣本數據計算的量度兩個變量之間線性關係強度的統計量。若相關係數是根據總體全部數據計算的，稱爲總體相關係數，記爲ρ；若根據樣本數據計算的，則稱爲樣本相關係數，記爲r。

線性相關係數 linear correlation coefficient / Pearson相關係數 Pearson’s correlation coefficient

使用樣本相關係數的計算公式計算的相關係數即爲線性相關係數【批：線性相關係數是雙變量的相關係數，用以衡量兩個變量之間的相關程度】，其公式爲：
$r=\frac{n\sum{xy}-\sum{x}\sum{y}}{\sqrt{n\sum{x^2}-(\sum{x})^2}\cdot{\sqrt{n\sum{y^2}-(\sum{y})^2}}}$
迴歸分析 regression analysis

（相關分析的目的在於測量變量之間的關係強度，它所使用的測量工具就是相關係數。）迴歸分析側重於考量變量之間的數量關係，並通過一定的數學表達式將這種關係描述出來，進而確定一個或幾個變量（自變量）的變化對另一個特定變量（因變量）的影響程度。具體來說，迴歸分析主要解決以下幾個方面的問題：

從一組樣本數據出發，確定變量之間的數學關係式。
對這些關係式的可信程度進行各種統計檢驗，並從影響某一特定變量的諸多變量中找出哪些變量的影響是顯著的，哪些是不顯著的。
利用所求的關係式，根據一個或幾個變量的取值來估計或預測兩一個特定變量的取值，並給出這種估計或預測的可靠程度。

因變量 dependent variable

在迴歸分析中，被預測或被解釋的變量稱爲因變量，用y表示。

自變量 independent variable

在迴歸分析中，用來預測或解釋因變量的一個或多個變量稱爲自變量，用x表示。

迴歸模型 regression model

對於具有線性關係的兩個變量，可以用一個線性方程來表示它們之間的關係。描述因變量y如何依賴於自變量x和誤差項ε的方程稱爲迴歸模型。只涉及一個自變量的一元線性迴歸模型可表示爲：

y=β0+β1x+ε

上式稱爲理論迴歸模型，對這一模型，有以下幾個主要假定：

因變量y與自變量x之間具有線性關係。【批：因爲一元線性迴歸模型只能用來預測兩個變量之間的線性相關關係】
在重複抽樣中，自變量x的取值是固定的，即假定x是非隨機的。【批：即任意給定的x值都是可以取到的；對於任意一個給定的x值，y的取值都對應着一個分佈】
誤差項ε是一個期望值爲0的隨機變量，即E(ε)=0。【批：如果ε的期望值不爲0的話，則說明該回歸模型不是無偏估計，即該模型存在偏差】
對於所有的x值，ε的方差σ^{2都相同。【批：這是模型的一個假定，在計算誤差項ε的標準差σ的估計（估計標準誤差）時，也是在依據假定的前提下計算的；當不同的x值對應的誤差項ε的方差σ}2各不相同時，我們稱之爲非常數方差】
誤差項ε是一個服從正態分佈的隨機變量，且獨立，即ε~N(0,σ^2)。

迴歸方程 regression equation

根據迴歸模型中的假定，ε的期望值等於0，因此y的期望值E(y)=β0+β1x，也就是說，y的期望值是x的線性函數。描述因變量y的期望值如何依賴於自變量x的方程稱爲迴歸方程。一元線性迴歸方程的形式爲：
$E(y)=\beta_0+\beta_1x$
一元線性迴歸方程的圖示是一條直線，因此也稱爲直線迴歸方程。其中β0是迴歸直線在y軸上的截距，是當x=0時y的期望值；β1是直線的斜率，它表示x每變動一個單位時，y的平均變動值。

最小二乘法 / 最小平方法 method of least squares

高斯提出用最小化圖中垂直方向的離差平方和來估計參數β0和β1，根據這一方法確定模型參數β0和β1的方法稱爲最小二乘法，它是通過使因變量的觀測值yi與yi的估計值之間的離差平方和達到最小來估計β0和β1的方法。

擬合優度 goodness of fit

迴歸直線與各觀測點的接近程度稱爲迴歸直線對數據的擬合優度。

判定係數 coefficient of determination

判定係數是對估計的迴歸方程擬合優度的度量，爲迴歸平方和佔總平方和的比例，記爲R^2，其計算公式爲：
$R^2=\frac{SSR}{SST}=\frac{\sum({\hat{y_i}-\overline{y})^2}}{\sum{(y_i-\overline{y})^2}}=1-\frac{\sum({y_i-\hat{y_i})^2}}{\sum{(y_i-\overline{y})^2}}$
估計標準誤差 standard error of estimate

估計標準誤差是衡量各實際觀測點在直接周圍的散佈狀況的一個統計量，它是均方殘差(MSE)的平方根，用se來表示，其計算公式爲：
$s_e=\sqrt{\frac{\sum{(y_i-\hat{y_i})^2}}{n-2}}=\sqrt{\frac{SSE}{n-2}}=\sqrt{MSE}$
預測 predict

迴歸模型經過各種檢驗並標明符合規定的要求後，就可以利用它來預測因變量了。所謂預測是指通過自變量x的取值來預測因變量y的取值。

點估計 point estimate

【此處爲在迴歸分析中的定義，其他參見：第7章參數估計】利用估計的迴歸方程，對於x的一個特定值x0，求出y的一個估計值就是點估計。點估計可分爲兩種：一是平均值的點估計，二是個別之的點估計。

區間估計 point estimate

【此處爲在迴歸分析中的定義，其他參見：第7章參數估計】利用估計的迴歸方程，對於x的一個特定值x0，求出y的一個估計值的區間就是區間估計。區間估計也有兩種類型，一是置信區間估計，二是預測區間估計。

置信區間估計 confidence interval estimate

（迴歸分析中的）置信區間估計是對x的一個給定值x0，求出y的平均值的區間估計，這一區間稱爲置信區間。

預測區間估計 prediction interval estimate

（迴歸分析中的）預測區間估計是對x的一個給定值x0，求出y的一個個別值的區間估計，這一區間稱爲預測區間。

預測區間 prediction interval

殘差分析 residual analysis

殘差分析就是通過殘差所提供的信息，分析出數據的可靠性週期性和其他干擾，用於分析模型的假定正確與否的方法。

殘差 residual

殘差是因變量的觀測值yi與根據估計的迴歸方程求出的預測值之差，用e表示。它反映了用估計的迴歸方程去預測yi而引起的誤差。

標準化誤差 / Pearnson殘差 / 半學生化殘差 standardized residual / semi-studentized residuals

對ε正態性假定的檢驗，也可以通過對標準化殘差的分析來完成。標準化殘差是殘差除以它的標準差後得到的數值，用ze表示。

《統計學》筆記：第11章一元線性迴歸

LeetCode題解(1370)：上升下降字符串(Python)

LeetCode題解(1399)：統計最大組的數目(Python)

LeetCode題解(1380)：矩陣中的幸運數(Python)

LeetCode題解(1385)：兩個數組間的距離值(Python)

LeetCode題解(1431)：擁有最多糖果的孩子(Python)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

《統計學》筆記：第11章 一元線性迴歸

《統計學》筆記：第11章一元線性迴歸