[統計學筆記] （十）一元線性迴歸

（十）一元線性迴歸

基本術語

迴歸這一術語最早來源於生物遺傳學，由高爾頓（Francis Galton）引入。

迴歸的解釋：迴歸分析是研究某一變量（因變量）與另一個或多個變量（解釋變量、自變量）之間的依存關係，用解釋變量的已知值或固定值來估計或預測因變量的總體平均值。

因變量： $\large Y$
自變量： $\large X$ 或 $\large X_{1}$ ， $\large X_{2}$ ， $\large X_{3}$ ，……等等。

數值型自變量和數值型因變量之間關係的分析方法，就是相關與迴歸分析。

相關與迴歸是處理變量之間關係的一種統計方法。如果研究的是兩個變量之間的關係，則稱爲簡單相關與簡單迴歸分析；如果研究的是兩個以上變量之間的關係，則稱爲多元相關與多元迴歸分析。

從變量之間的關係形態來看，有線性相關與線性迴歸分析及非線性相關與非線性迴歸分析。

變量之間的關係

變量之間的關係可以劃分爲：函數關係和相關關係。

函數關係是一一對應的關係。

變量之間存在的不確定的數量關係稱爲相關關係。

例子：

相關關係的描述與測度

相關分析就是對兩個變量之間線性關係的描述與度量，它要解決的問題包括：

變量之間是否存在關係？
如果存在關係，他們之間是什麼樣的關係？
變量之間的關係強度如何？
樣本所反映的變量之間的關係能否代表總體變量之間的關係？

爲了解決這些問題，在進行相關分析時，對總體主要有兩個假定：

第一：兩個變量是線性相關的；

第二：兩個變量都是隨機變量；

確定相關關係的存在，相關關係呈現的形態和方向，相關關係的密切程度。其主要方法是繪製相關圖表和計算相關係數。
1）相關表
編制相關表前首先要通過實際調查取得一系列成對的標誌值資料作爲相關分析的原始數據。
相關表的分類：簡單相關表和分組相關表。單變量分組相關表：自變量分組並計算次數，而對應的因變量不分組，只計算其平均值；該表特點：使冗長的資料簡化，能夠更清晰地反映出兩變量之間相關關係。雙變量分組相關表：自變量和因變量都進行分組而製成的相關表，這種表形似棋盤，故又稱棋盤式相關表。
2）相關圖
利用直角座標系第一象限，把自變量置於橫軸上，因變量置於縱軸上，而將兩變量相對應的變量值用座標點形式描繪出來，用以表明相關點分佈狀況的圖形。相關圖被形象地稱爲相關散點圖。因素標誌分了組，結果標誌表現爲組平均數，所繪製的相關圖就是一條折線，這種折線又叫相關曲線。
3）相關係數
1、相關係數是按積差方法計算，同樣以兩變量與各自平均值的離差爲基礎，通過兩個離差相乘來反映兩變量之間相關程度；着重研究線性的單相關係數。
2、確定相關關係的數學表達式。
3、確定因變量估計值誤差的程度。

在進行相關分析時，首先需要繪製散點圖來判斷變量之間的關係形態，如果是線性關係，則可以利用相關係數來測度兩個變量之間的關係強度，然後對相關係數進行顯著性檢驗，以判斷樣本所反映的關係是否代表兩個變量總體上的關係。

根據散點圖，當自變量取某一值時，因變量對應爲一概率分佈，如果對於所有的自變量取值的概率分佈都相同，則說明因變量和自變量是沒有相關關係的。反之，如果，自變量的取值不同，因變量的分佈也不同，則說明兩者是存在相關關係的。

兩個變量之間的相關程度通過相關係數 $\large r$ 來表示。相關係數 $\large r$ 的值在-1和1之間，但可以是此範圍內的任何值。

正相關時， $\large r$ 值在0和1之間，散點圖是斜向上的，這時一個變量增加，另一個變量也增加；

負相關時， $\large r$ 值在-1和0之間，散點圖是斜向下的，此時一個變量增加，另一個變量將減少。

$\large r$ 的絕對值越接近1，兩變量的關聯程度越強，

$\large r$ 的絕對值越接近0，兩變量的關聯程度越弱。

不同形態的散點圖：

迴歸分析要解決的問題

從一組樣本數據出發，確定變量之間的數學關係式；
對這些關係式的可信程度進行各種統計檢驗，並從影響某一特定變量的諸多變量中找出哪些變量的影響是顯著的，哪些是不顯著的；
利用所求的關係式，根據一個或幾個變量的取值來估計或預測另一個特定變量的取值，並給出這種估計或預測的可靠程度。

一元線性迴歸

迴歸模型的表示：

$\large y = \beta _{0}+\beta _{1}x+\varepsilon$

其中： $\large \varepsilon$ 是誤差項的隨機變量。

迴歸模型：

$\large E\left ( y \right ) = \beta_{0} + \beta_{1}x$

一元線性迴歸方程的圖示是一條直線，因此也稱爲直線迴歸方程。

常見問題

1、解釋相關關係的含義，並說明相關關係的特點。

含義：變量之間存在的不確定的數量關係爲相關關係。

特點：一個變量的取值不能由另一個變量唯一確定，當變量 $\large x$ 取某個值時，變量 $\large y$ 的取值可能有幾個；變量之間的相關關係不能用函數關係進行描述，但也不是無任何規律可循。通常對大量數據的觀察與研究，可以發現變量之間存在一定的客觀規律。

2、相關分析主要解決哪些問題？

變量間是否存在關係；如果存在，是什麼樣的關係；變量之間的關係強度如何；樣本所反映的變量之間的關係能否代表總體變量之間的關係。

3. 相關分析中有哪些基本假定？

兩個變量之間是線性關係；兩個變量都是隨機變量。

4、簡述相關係數的性質

公式：
$\large r = \frac{n\sum xy-\sum x\sum y}{\sqrt{n\sum x^{2}-\left ( \sum x \right )^{2}}\times \sqrt{n\sum y^{2}-\left ( \sum y \right )^{2}}}$

性質：
$\large -1\leq r\leq 1$ ；對稱性 $\large r$ 的大小與 $\large x$ 和 $\large y$ 的原點及尺度無關； 𝑟 僅僅是 $\large x$ 與 $\large y$ 之間線性關係的一個度量，不能用於描述非線性關係； $\large r$ 雖然是兩個變量之間線性關係的一個度量，不意味着 $\large x$ 和 $\large y$ 一定有因果關係。

5. 爲什麼要對相關係數進行顯著性檢驗？

在對實際現象進行分析時，往往是利用樣本數據計算相關係數作爲總體相關係數的估計值，但由於樣本相關係數具有一定的隨機性，它能否說明總體的相關程度往往同樣本容量有一定關係。因此需要對相關係數進行顯著性檢驗，若在統計上是顯著的，說明它可以作爲總體相關程度的代表值，否則不能作爲總體相關程度的代表值。

6. 簡述相關係數顯著性檢驗的步驟。

提出假設： $\large H_{0}$ ： $\large \rho =0$ $\large H_{1}$ ： $\large \rho \neq 0$
計算檢驗的統計量： $\large t = \left | r \right |\sqrt{\frac{n-2}{1-r^{2}}}$ ~ $\large t\left ( n-2 \right )$
進行決策：確定顯著性水平，若 $\large t > t_{\alpha /2}$ ，拒絕原假設。

7. 解釋迴歸模型、迴歸方程、估計的迴歸方程的含義
迴歸模型：描述因變量 𝑦 如何依賴自變量 𝑥和誤差項 𝜀 的方程稱爲迴歸模型

表示爲： $\large y = \beta _{0}+\beta _{1}x+\varepsilon$
迴歸方程：描述因變量 $\large y$ 如何依賴自變量 𝑥的方程稱爲迴歸方程，表示爲： $\large E\left ( y \right ) = \beta_{0} + \beta_{1}x$
估計的迴歸方程：根據樣本數據求出的迴歸方程，表示爲： $\large \hat{y} = \hat{\beta _{_{0}}}+\hat{\beta _{1}}x$

8. 一元線性迴歸模型中有哪些基本假定？
因變量 $\large y$ 與自變量 $\large x$ 具有線性關係；在重複抽樣中，自變量 $\large x$ 的取值是固定的，即假設 $\large x$ 是非隨機的；誤差項 $\large \varepsilon$ 是一個期望值爲 0 的隨機變量；對於所有的 $\large x$ 值， $\large \varepsilon$ 的 $\large \sigma ^{2}$ 都相同；誤差項 $\large \varepsilon$ 是一個服從正態分佈的隨機變量，且獨立，即 $\large \varepsilon$ ~ $\large N\left ( 0,\sigma ^{2} \right )$ 。

9. 簡述參數最小二乘估計的基本原理
對於 $\large x$ 和 $\large y$ 的 $\large n$ 對觀測值，用距離各觀測點最近的一條直線來代表 $\large x$ 和 $\large y$ 之間的關係與實際數據的誤差比其他任何直線都小。即使因變量的觀測值與估計值之間的離差平方和達到最小來估計 $\large \hat{\beta _{0}}$ 和 $\large \hat{\beta _{1}}$ 。

10. 解釋總平方和、迴歸平方和、殘差平方和的含義，並說明他們之間的關係。解釋總平方和、迴歸平方和、殘差平方和的含義，並說明他們之間的關係

總平方和：對一個具體的觀測值來說，變差的大小可以用實際觀測值 $\large y$ 與其均值 $\large \overline{y}$ 之差 $\large \left ( y-\overline{y} \right )$ 來表示，而 $\large n$ 次觀測值的總變差可由這些離差的平方和來表示，稱爲總平方和（SST）。

迴歸平方和：由於自變量 $\large x$ 的變化引起的 $\large y$ 的變化，而其平方和反映了 $\large y$ 的總變差中由於 $\large x$ 與 $\large y$ 之間的線性關係引起的 $\large y$ 的變化部分，它是可以由迴歸直線來解釋的變差部分，稱爲迴歸平方和（SSR）。

殘差平方和：除了 $\large x$ 對 $\large y$ 的線性影響之外的其他因素對 $\large y$ 變差的作用，是不能由迴歸直線來解釋的變差部分，稱爲殘差平方和（ SSE）。

關係：SST=SSR+SSE

11. 簡述判定係數的含義和作用

含義：判定係數是對估計的迴歸方程擬合優度的度量。

作用：判定係數 $\large R^{2}$ 測度了迴歸直線對觀測數據的擬合優度，取值範圍 $\large \left [ 0,1 \right ]$ ；

越接近 $\large 1$ ，表明迴歸平方和佔總平方和的比例越大，擬合優度越好；

反之，越接近於 $\large 0$ ，迴歸直線的擬合程度就越差。

12. 在迴歸分析中， $\large F$ 檢驗和 $\large t$ 檢驗各有什麼作用

$\large F$ 檢驗：線性關係檢驗。

$\large t$ 檢驗：迴歸係數檢驗。

13. 簡要說明殘差分析在迴歸分析中的作用

判斷對誤差項 $\large \varepsilon$ 的假定是否成立。

[統計學筆記] （十）一元線性迴歸

（十）一元線性迴歸

基本術語

變量之間的關係

相關關係的描述與測度

相關分析

迴歸分析要解決的問題

一元線性迴歸

常見問題

[機器學習筆記] 機器學習常見算法總結（更新中）

[統計學筆記] （四）數據分佈的數字特徵

[機器學習筆記] （轉載學習）完整機器學習項目的工作流程

[機器學習筆記] 常用的分類與預測算法

[機器學習筆記] 用Python分析 TED演講數據（更新中）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結