迴歸分析--數學基礎篇

原創

2020-05-30 23:29

一、迴歸分析概述

迴歸分析是尋找存在關係的變量間的數學表達式，並進行統計推斷的一種統計方法。簡單的說，迴歸分析可以預測數值型的目標值，比如已知一批特徵數據及目標值，找到這些特徵與目標存在的關係係數，求得方程，從而可以推測未知的目標值是多少。用這個方法可以做很多事情，如預測明年銷售量，製造缺陷預測，又或者預測明星們的離婚率。

二、迴歸分析一般步驟

確定迴歸方程中的因變量和自變量
確定迴歸模型，建立迴歸方程
對方程進行檢驗
利用迴歸方方程進行預測

三、迴歸方程

$E(y)=\beta _0+\beta _1x_$ ( $\beta _0$ ：截距， $\beta _1$ ：斜率，x：自變量，y：因變量）

我們可將 $\beta _0$ 乘上一個，令=1。整合公式有：

$H_\theta (x)=\sum_{i=0}^{n}\theta _ix_i=\theta ^Tx$

我們得到的H(x)是預測值，預測值和實際值y存在着誤差 $\varepsilon$ ，理想情況下，誤差越小，預測值越接近實際值，則可得到我們需要的迴歸係數即方程。而誤差 $\varepsilon$ 是服從高斯分佈的：

①式： $P(\varepsilon ^(^i^))=1/(\sqrt{2\pi }*\sigma )*exp(-(\varepsilon ^(^i^))^2/(2\sigma ^2))$

②式： $y^(^i^)=\theta ^T x^(^i^)+\varepsilon ^(^i^)$

將②式代入①式，得： $P(y^(^i^)|x^(^i^);\theta )=1/(\sqrt{2\pi }*\sigma)*exp(-(y^(^i^)-\theta ^Tx^(^i^))^2/2\sigma ^2)$

因此我們要求參數 $\theta$ 等於多少時， $\theta ^Tx^(^i^)$ 接近的概率最大。這類問題，我們可用似然函數和對數似然來解決，得：

$J(\theta )=1/2*\sum_{i=1}^{m}(y^(^i^)-\theta ^Tx^(^i^))^2$ （即最小二乘法）

四、誤差及迴歸檢驗方法

名稱	定義	公式	意義
標準誤差	度量觀察值圍繞回歸直線的變化過程，即分散程度	$Se=\sqrt{\frac{\sum(y-\hat{y})^2}{n-k}}$ （n：樣本量，k：被限制的變量個數；n-k：自由度）	Se越大，代表數據分散程度越大，迴歸方程代表性越小
置信區間	置信區間展現的是這個參數的真實值有一定概率落在測量結果的周圍的程度，其給出的是測量值的可信程度。通俗的講，即是預測值的誤差範圍。	$\hat{y}\pm t_{\frac{\alpha }{2}}Se\sqrt{\frac{1}{n}+\frac{(x_{0}-\bar{x})^2}{\sum (x-\bar{x})^2}}$ ( $\hat{y}$ :預測值)	置信水平 $(1-\alpha )$ 越大，置信區間越寬；數據離散程度Se越大，區間越寬；樣本容量越大，區間寬度越小； $x_{0}$ 和 $\bar{x}$ 差異越大，區間寬度越大。
總平方和（SST）	反映n個y觀測值與均值的總離差	$\sum (y-\hat{y})^2$	且有：SST=SSR+SSE
迴歸平方和（SSR）	由x與y之間的線性關係引起的y變化部分	$\sum (\hat{y}-\bar{y})^2$
殘差平方和（SSE）	除了x與y之間線性影響之外的因素對y變差的作用，不能由迴歸直線解釋	$\sum (y-\hat{y})^2$
判定係數	迴歸平方和佔總平方和的比例，判斷迴歸方程的好壞，用來表示，其值在0到1之間。	$R^2=\frac{SSR}{SST}=\frac{\sum (\hat{y}-\bar{y})^2}{\sum (y-\bar{y})^2}=1-\frac{\sum (y-\hat{y})^2}{\sum (y-\bar{y})^2}$	趨向於0，代表y和x無關，不能用迴歸方程解釋y變化；若趨向於1，則代表完全擬合，y的變化只和x有關。
顯著性檢驗	檢驗包括兩個方面：①、線性關係檢驗：檢驗x和y是否由線性關係；②、迴歸係數檢驗	①、線性關係檢驗（n-k：自由度）： $F=\frac{SSR/(n-k_1)}{SSE/(n-k_2)}=\frac{MSR}{MSE}\sim F(n-k_1,n-k_2)$ ②、迴歸係數檢驗公式 (n-k：自由度) ： $t=\frac{\hat{\beta_1}-\beta _1}{S_{\beta_1}}\sim t(n-k)$	多元線性歸回：①、線性關係公式：只能檢驗總體自變量和因變量回歸關係顯著性；②、迴歸係數檢驗公式：可以對各個自變量的係數進行檢驗

五、曲線迴歸分析

曲線迴歸（curvilinear regression）是指對於非線性關係的變量進行迴歸分析的方法。曲線迴歸方程一般是以自變量的多項式表達因變量。方法是：根據數據的特點先進行某些變換（如對數變換、平方根變換等），如果變換後得到線性模型，則進行線性迴歸；如果變換後仍得不到線性模型，則可以用曲線擬合的方法對原始數據進行擬合，確定曲線迴歸方程。（摘自百度百科）

曲線迴歸分析首要任務也是最難部分是：確定自變量x和因變量y之間的曲線關係類型（即確定方程類型）。我們可以用三步驟：變換 $\rightarrow$ 建模 $\rightarrow$ 還原

先將x或y進行變換成直線方程。
對新變量進行直線迴歸分析，建立方程，進行顯著性檢驗和區間估計。
將新變量還原，得出原變量的曲線方程和置信區間。

六、多重共線性

定義：模型中，兩個或以上的自變量彼此之間存在相關現象。
檢驗多重共線性的方法：①、容忍度；②、方差膨脹因子（VIF）
容忍度公式：（：與其他變量x的相關係數）（Toli越趨向於0，多重共線性越強）
方差膨脹因子公式： $VIF_i=\frac{1}{1-R_i^2}$

此篇記錄關於迴歸分析的數學基礎，下一篇是將會分享用python做迴歸分析，將引用statsmodels和scikit-learn庫。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

迴歸分析--數學基礎篇

釘釘打卡速度慢

使用neovim打造go ide(支持代碼跳轉, 代碼補全, 實時語法檢查)

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Python 潮流週刊#51：用 Python 繪製美觀的圖表

cs01 CSS Syntax

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

【數據挖掘數學基礎】01描述統計（下）

【數據挖掘數學基礎】01描述統計（上）

【數據挖掘數學基礎】01描述統計（中）

【數據挖掘數學基礎】00前言

【MySQL基礎】02數據定義語言DDL

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結