簡單線性迴歸

什麼是簡單線性迴歸

用統計的方法來得到連續自變量x和因變量y之間的線性關係。和一般線性迴歸的區別在於只有一個自變量。

華氏溫度和攝氏溫度之間的關係:

Fahr=95Cels+32

這是一個確定的線性關係,不是我們需要解決的問題。

相對的,我們要解決的問題是關於非確定的,如下所示,因變量y是一千萬人中因皮膚癌致死的人數,自變量x是美國49個州的緯度。

皮膚癌和海拔

從上圖中可以看到緯度越高,越往北,由於皮膚癌致死的越少。上圖支持了該種假說。緯度和皮膚癌致死人數成反比,但是這種關係不怎麼好,看着不像一個線性的。圖中的散點表明了一種趨勢,也有離散的。因此這不是確定的關係,而是統計上的關係。

還有一些其他的統計上的關係,例如:

  1. 身高和體重。身高增加體重也會增加,但不是一個確定的線性關係
  2. 喝了多少酒和血液裏的酒精濃度

衡量擬合的好壞程度63280550

身高體重

對於上圖總結的自變量身高和因變量體重之間的線性關係,哪條總結的比較好?

可以用如下方程來表示一條直線:

y^i=b0+b1xi

其中,圖中的一點代表一個樣本(xi , yi ),即一個學生的身高和體重,xi 表示第i個樣本的特徵值(自變量),yi 表示第i個樣本的實際值(因變量),y^i 表示第i個樣本的預測值。

一個點的誤差:

ei=yiy^i

衡量一條直線總結其中關係的好壞,需要綜合所有的樣本點,所以使用均方誤差來綜合一條直線的誤差。然後就可以使用最小二乘方法來找到能使該誤差最小的參數b0,b1 ,從而確定這條最好的直線。

Q=i=1n(yiy^i)2

最小二乘方法求解直線方程的參數

求解能使誤差Q最小的參數b0,b1 ,即求解如下的規劃模型:

minQ=i=1n(yi(b0+b1xi))2

通過Q對b0,b1 求導置爲0,即求解極值

Qb0=0Qb1=0

二元一次方程,用克拉默法則可以得到解:

b0=y¯b1x¯

b1=ni=1(xix¯)(yiy¯)ni=1(xix¯)2

由於是根據最小二乘原則得出的結果,所以一般把這條直線叫做最小二乘迴歸線。只做了一個假設,這對非確定的關係是一個線性的趨勢。

簡單線性迴歸模型

對於如下的一個高校績點平均和學生入學成績之間的關係:

校績點平均和學生入學測試成績之間的關係

我們可以根據最小二乘方法擬合出一條直線μY=E(Y)=β0+β1x ,叫做總體迴歸線,即從所有的數據中總結出的直線規律。當然對於每一個學生,可以通過平均績點來估計其入學測試的分數,E(Yi)=β0+β1xi 。但是很顯然,這個分數和該同學實際的分數不一樣,存在一些誤差ϵi 。因此另外有一個描述簡單線性迴歸模型的方式:yi=E(Yi)+ϵi=β0+β1xi+ϵi

因此,爲了得出關於人口參數β0β1 的任何結論,我們必須對迴歸設置中數據的行爲進行更多的假設。

  1. 首先看各績點的平均值,連接它以後會得到一條直線,把這條直線作爲我們預測的關係是否合適?
  2. 各績點上的樣本點都在直線附近,而且都在3以內,把這些誤差繪製成一條曲線,會是一個正態分佈嗎?
  3. 各績點上的樣本點差距都類似,那麼可以假設它們的方差一樣嗎?
  4. 假設一個學生的誤差和其他學生的誤差無關。

總結如上,我們得到了組成簡單線性迴歸模型的4個條件:

  1. 因變量的均值E(Yi)xi 成一個線性的關係
  2. 誤差ϵi 是相互獨立的
  3. 誤差ϵi 在每個樣本點都是正態分佈
  4. 誤差ϵi 在每個樣本點的方差σ2 相等

常見誤差方差

上一個例子中我們看到對於每類績點樣本點和平均直線的差距類似,有着相同的方差σ2 。方差σ2 是用來量化因變量(y)和平均總體迴歸線(未知)的偏離程度。研究方差有助於估計迴歸線最常用的方法有關,即預測一些未來的反應。

對於如下兩個溫度計AB,都可以測量攝氏溫度和華氏溫度,分別測量了十天的溫度,得到如下的兩個溫度計的關係圖。

溫度計A

溫度計B

溫度計B上的點相對A來說,偏離迴歸方程不多。因此用溫度計B來預測華氏溫度,和實際的結果偏差不大,而溫度計A來說就相差有點多。所以用溫度計B來預測更準確。

那麼怎麼去衡量這個相差程度呢?答案是方差σ2 。但是方差是一個總體的參數,所以只能去估計方差的值。

估計方差

IQ

上圖中是IQ的統計圖。IQ的平均是100,那麼怎麼衡量其他人對這個平均值的偏離程度。使用樣本方差來估計總體方差:

s2=ni=1(yiy¯)2n1

樣本方差的分佈爲什麼是n-1?

樣本方差的分佈爲什麼是n-1?

簡單來說就是樣本方差是對總體方差的一個無偏估計,不知道總體的均值,所以損失一個自由度。

均方誤差MSE:

MSE=ni=1(yiyi^)2n2

因爲yi^=β0+β1xi 有兩個未知參數,損失兩個自由度,所有分母是n-2。

決定係數,或擬合優度r2

用來分清自變量和因變量之間的相關關係是否強烈。首先介紹一下用來評價迴歸直線的3個參數。

  1. SSR,迴歸平方和,用來量化迴歸直線估計的yi^ 和樣本均值或者y¯ 相差多少
  2. SSE,殘差平方和,計算估計值yi^ 和實際值yi 相差多少
  3. SSTO,總離差平方和,計算實際值yi 和均值y¯ 相差多少

舉例說明一下自變量和因變量之間的相關關係強弱,對比以上3個參數:

弱相關

SSRSSESSTO===i=1n(yi^yi¯)2=119.1i=1n(yiyi^)2=1708.5i=1n(yiyi¯)2=1827.6

強相關

SSRSSESSTO===i=1n(yi^yi¯)2=6679.3i=1n(yiyi^)2=1708.5i=1n(yiyi¯)2=8487.8

其中SSTO是SSR和SSE的和。對於第一種情況,總偏離大多來自於SSE,而第二種情況大多來自於SSR。

擬合優度的計算

r2=SSRSSTO=1SSESSTO

分別計算上述兩種情況下的擬合優度,分別爲0.065和0.799。

有如下一些結論:

  1. 擬合優度是一個比例,所以取值範圍爲在[0,1]
  2. 如果擬合優度爲1,說明SSE爲0,也就是殘差平方和爲0,估計值和實際值一樣
  3. 如果擬合優度爲0,說明SSR爲0,也就是迴歸平方和爲0,估計出來的迴歸線是水平的

R²衡量的是迴歸方程整體的擬合度,是表達因變量與所有自變量之間的總體關係。R²等於迴歸平方和在總平方和中所佔的比率,即迴歸方程所能解釋的因變量變異性的百分比(在MATLAB中,R²=1-“迴歸平方和在總平方和中所佔的比率”)。實際值與平均值的總誤差中,迴歸誤差與剩餘誤差是此消彼長的關係。因而回歸誤差從正面測定線性模型的擬合優度,剩餘誤差則從反面來判定線性模型的擬合優度。

皮爾遜相關係數

皮爾遜相關係數和前文的擬合優度是直接關聯的,r2 中的r就是皮爾遜相關係數。如果斜率係數b1 是正數,那麼r就是正數,否則就是負數。由於擬合優度在區間[0,1]中,所以皮爾遜係數在區間[-1,1]之間。

其他的計算公式:

r=ni=1(xix¯)(yiy¯)ni=1(xix¯)2(yiy¯)2

從上式可以得出r的一個優勢:消除了量綱的影響。

r=ni=1(xix¯)2ni=1(yiy¯)2×b1

從上式中可以得到r和b1 相關。

對於一對關係(x,y)

  • 如果r=1,那麼x和y存在一個非常完美的正相關線性關係
  • 如果r=-1,那麼x和y存在一個非常完美的負相關線性關係
  • 如果r=0,那麼x和y不存在線性關係

r的符號代表是正相關還是負相關,絕對值越接近1表示線性相關性越強。

注意點

  1. 決定係數或者說擬合優度,以及皮爾遜係數是用來量化變量x和y之間的線性關係,r2 等於0並不代表x和y之間不存在關係,比如說y=x2 的擬合優度就是等於0。
  2. r2 的值很大並不能說明迴歸的直線能很好擬合數據。其他的一些函數可能擬合的效果更好。
  3. 一個或者一些點(異常點?)會對r2,r 產生很大的影響。
  4. r2 的值很大並不能說明x和y有實際意義的聯繫,統計意義上的線性關係並不能呢個說明有這樣的因果關係。比如說在法國,喝的酒越多心臟病越低。
  5. 分清楚變量是對個體還是分組平均的。
  6. “具有統計意義的”r2值並不意味着斜率β1與0有意義的不同。統計意義並不意味着實際意義。
  7. r2 的值很大並不意味着用這個直線預測的值有用,有可能預測區間或者置信區間太寬而沒用(?)。

假設檢驗(略)

參考資料

PennState Eberly College of Science 的在線課程
一些迴歸直線的相關係數例子
爲什麼樣本方差(sample variance)的分母是 n-1?
百度上關於決定係數、擬合優度的相關介紹

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章