迴歸分析--數學基礎篇

 一、迴歸分析概述

迴歸分析是尋找存在關係的變量間的數學表達式,並進行統計推斷的一種統計方法。簡單的說,迴歸分析可以預測數值型的目標值,比如已知一批特徵數據及目標值,找到這些特徵與目標存在的關係係數,求得方程,從而可以推測未知的目標值是多少。用這個方法可以做很多事情,如預測明年銷售量,製造缺陷預測,又或者預測明星們的離婚率。

二、迴歸分析一般步驟

  1. 確定迴歸方程中的因變量和自變量
  2. 確定迴歸模型,建立迴歸方程
  3. 對方程進行檢驗
  4. 利用迴歸方方程進行預測

三、迴歸方程

E(y)=\beta _0+\beta _1x_  (\beta _0:截距,\beta _1:斜率,x:自變量,y:因變量)

我們可將\beta _0乘上一個x_0,令x_0=1。整合公式有:

H_\theta (x)=\sum_{i=0}^{n}\theta _ix_i=\theta ^Tx

我們得到的H(x)是預測值,預測值和實際值y存在着誤差\varepsilon,理想情況下,誤差越小,預測值越接近實際值,則可得到我們需要的迴歸係數即方程。而誤差\varepsilon是服從高斯分佈的:

①式:P(\varepsilon ^(^i^))=1/(\sqrt{2\pi }*\sigma )*exp(-(\varepsilon ^(^i^))^2/(2\sigma ^2)) 

②式:y^(^i^)=\theta ^T x^(^i^)+\varepsilon ^(^i^)

將②式代入①式,得:P(y^(^i^)|x^(^i^);\theta )=1/(\sqrt{2\pi }*\sigma)*exp(-(y^(^i^)-\theta ^Tx^(^i^))^2/2\sigma ^2)

因此我們要求參數\theta等於多少時,\theta ^Tx^(^i^)接近y^(^i^)的概率最大。這類問題,我們可用似然函數和對數似然來解決,得:

J(\theta )=1/2*\sum_{i=1}^{m}(y^(^i^)-\theta ^Tx^(^i^))^2(即最小二乘法)

四、誤差及迴歸檢驗方法

名稱

定義

公式

意義

標準誤差

度量觀察值圍繞回歸直線的變化過程,即分散程度

Se=\sqrt{\frac{\sum(y-\hat{y})^2}{n-k}}(n:樣本量,k:被限制的變量個數;n-k:自由度)

Se越大,代表數據分散程度越大,迴歸方程代表性越小

置信區間

置信區間展現的是這個參數的真實值有一定概率落在測量結果的周圍的程度,其給出的是測量值的可信程度。通俗的講,即是預測值的誤差範圍。

\hat{y}\pm t_{\frac{\alpha }{2}}Se\sqrt{\frac{1}{n}+\frac{(x_{0}-\bar{x})^2}{\sum (x-\bar{x})^2}}

(\hat{y}:預測值)

置信水平(1-\alpha )越大,置信區間越寬;數據離散程度Se越大,區間越寬;樣本容量越大,區間寬度越小;x_{0}\bar{x}差異越大,區間寬度越大。

總平方和(SST)

反映n個y觀測值與均值的總離差

 

\sum (y-\hat{y})^2

且有:SST=SSR+SSE

迴歸平方和(SSR) 由x與y之間的線性關係引起的y變化部分 \sum (\hat{y}-\bar{y})^2
殘差平方和(SSE) 除了x與y之間線性影響之外的因素對y變差的作用,不能由迴歸直線解釋 \sum (y-\hat{y})^2
判定係數 迴歸平方和佔總平方和的比例,判斷迴歸方程的好壞,用R^2來表示,其值在0到1之間。 R^2=\frac{SSR}{SST}=\frac{\sum (\hat{y}-\bar{y})^2}{\sum (y-\bar{y})^2}=1-\frac{\sum (y-\hat{y})^2}{\sum (y-\bar{y})^2} R^2趨向於0,代表y和x無關,不能用迴歸方程解釋y變化;若趨向於1,則代表完全擬合,y的變化只和x有關。
顯著性檢驗 檢驗包括兩個方面:①、線性關係檢驗:檢驗x和y是否由線性關係;②、迴歸係數檢驗

①、線性關係檢驗(n-k:自由度):F=\frac{SSR/(n-k_1)}{SSE/(n-k_2)}=\frac{MSR}{MSE}\sim F(n-k_1,n-k_2)

②、迴歸係數檢驗公式 (n-k:自由度) :

t=\frac{\hat{\beta_1}-\beta _1}{S_{\beta_1}}\sim t(n-k)

多元線性歸回:①、線性關係公式:只能檢驗總體自變量和因變量回歸關係顯著性;②、迴歸係數檢驗公式:可以對各個自變量的係數進行檢驗

五、曲線迴歸分析

曲線迴歸(curvilinear regression)是指對於非線性關係的變量進行迴歸分析的方法。曲線迴歸方程一般是以自變量的多項式表達因變量。方法是:根據數據的特點先進行某些變換(如對數變換、平方根變換等),如果變換後得到線性模型,則進行線性迴歸; 如果變換後仍得不到線性模型,則可以用曲線擬合的方法對原始數據進行擬合,確定曲線迴歸方程。(摘自百度百科)

曲線迴歸分析首要任務也是最難部分是:確定自變量x和因變量y之間的曲線關係類型(即確定方程類型)。我們可以用三步驟:變換 \rightarrow 建模 \rightarrow還原

  1. 先將x或y進行變換成直線方程。
  2. 對新變量進行直線迴歸分析,建立方程,進行顯著性檢驗和區間估計。
  3. 將新變量還原,得出原變量的曲線方程和置信區間。

六、多重共線性

  1. 定義:模型中,兩個或以上的自變量彼此之間存在相關現象。
  2. 檢驗多重共線性的方法:①、容忍度;②、方差膨脹因子(VIF)
  3. 容忍度公式:Toli=1-R_i^2  (R_i^2x_i與其他變量x的相關係數)(Toli越趨向於0,多重共線性越強)
  4. 方差膨脹因子公式:VIF_i=\frac{1}{1-R_i^2}

此篇記錄關於迴歸分析的數學基礎,下一篇是將會分享用python做迴歸分析,將引用statsmodels和scikit-learn庫。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章