什麼是簡單線性迴歸
用統計的方法來得到連續自變量x和因變量y之間的線性關係。和一般線性迴歸的區別在於只有一個自變量。
華氏溫度和攝氏溫度之間的關係:
這是一個確定的線性關係,不是我們需要解決的問題。
相對的,我們要解決的問題是關於非確定的,如下所示,因變量y是一千萬人中因皮膚癌致死的人數,自變量x是美國49個州的緯度。
從上圖中可以看到緯度越高,越往北,由於皮膚癌致死的越少。上圖支持了該種假說。緯度和皮膚癌致死人數成反比,但是這種關係不怎麼好,看着不像一個線性的。圖中的散點表明了一種趨勢,也有離散的。因此這不是確定的關係,而是統計上的關係。
還有一些其他的統計上的關係,例如:
- 身高和體重。身高增加體重也會增加,但不是一個確定的線性關係
- 喝了多少酒和血液裏的酒精濃度
- …
衡量擬合的好壞程度63280550
對於上圖總結的自變量身高和因變量體重之間的線性關係,哪條總結的比較好?
可以用如下方程來表示一條直線:
其中,圖中的一點代表一個樣本(
一個點的誤差:
衡量一條直線總結其中關係的好壞,需要綜合所有的樣本點,所以使用均方誤差來綜合一條直線的誤差。然後就可以使用最小二乘方法來找到能使該誤差最小的參數
最小二乘方法求解直線方程的參數
求解能使誤差Q最小的參數
通過Q對
二元一次方程,用克拉默法則可以得到解:
由於是根據最小二乘原則得出的結果,所以一般把這條直線叫做最小二乘迴歸線。只做了一個假設,這對非確定的關係是一個線性的趨勢。
簡單線性迴歸模型
對於如下的一個高校績點平均和學生入學成績之間的關係:
我們可以根據最小二乘方法擬合出一條直線
因此,爲了得出關於人口參數
- 首先看各績點的平均值,連接它以後會得到一條直線,把這條直線作爲我們預測的關係是否合適?
- 各績點上的樣本點都在直線附近,而且都在3以內,把這些誤差繪製成一條曲線,會是一個正態分佈嗎?
- 各績點上的樣本點差距都類似,那麼可以假設它們的方差一樣嗎?
- 假設一個學生的誤差和其他學生的誤差無關。
總結如上,我們得到了組成簡單線性迴歸模型的4個條件:
- 因變量的均值
E(Yi) 和xi 成一個線性的關係 - 誤差
ϵi 是相互獨立的 - 誤差
ϵi 在每個樣本點都是正態分佈 - 誤差
ϵi 在每個樣本點的方差σ2 相等
常見誤差方差
上一個例子中我們看到對於每類績點樣本點和平均直線的差距類似,有着相同的方差
對於如下兩個溫度計AB,都可以測量攝氏溫度和華氏溫度,分別測量了十天的溫度,得到如下的兩個溫度計的關係圖。
溫度計B上的點相對A來說,偏離迴歸方程不多。因此用溫度計B來預測華氏溫度,和實際的結果偏差不大,而溫度計A來說就相差有點多。所以用溫度計B來預測更準確。
那麼怎麼去衡量這個相差程度呢?答案是方差
估計方差
上圖中是IQ的統計圖。IQ的平均是100,那麼怎麼衡量其他人對這個平均值的偏離程度。使用樣本方差來估計總體方差:
樣本方差的分佈爲什麼是n-1?
簡單來說就是樣本方差是對總體方差的一個無偏估計,不知道總體的均值,所以損失一個自由度。
均方誤差MSE:
因爲
決定係數,或擬合優度r2
用來分清自變量和因變量之間的相關關係是否強烈。首先介紹一下用來評價迴歸直線的3個參數。
- SSR,迴歸平方和,用來量化迴歸直線估計的
yi^ 和樣本均值或者y¯ 相差多少 - SSE,殘差平方和,計算估計值
yi^ 和實際值yi 相差多少 - SSTO,總離差平方和,計算實際值
yi 和均值y¯ 相差多少
舉例說明一下自變量和因變量之間的相關關係強弱,對比以上3個參數:
其中SSTO是SSR和SSE的和。對於第一種情況,總偏離大多來自於SSE,而第二種情況大多來自於SSR。
擬合優度的計算
分別計算上述兩種情況下的擬合優度,分別爲0.065和0.799。
有如下一些結論:
- 擬合優度是一個比例,所以取值範圍爲在[0,1]
- 如果擬合優度爲1,說明SSE爲0,也就是殘差平方和爲0,估計值和實際值一樣
- 如果擬合優度爲0,說明SSR爲0,也就是迴歸平方和爲0,估計出來的迴歸線是水平的
R²衡量的是迴歸方程整體的擬合度,是表達因變量與所有自變量之間的總體關係。R²等於迴歸平方和在總平方和中所佔的比率,即迴歸方程所能解釋的因變量變異性的百分比(在MATLAB中,R²=1-“迴歸平方和在總平方和中所佔的比率”)。實際值與平均值的總誤差中,迴歸誤差與剩餘誤差是此消彼長的關係。因而回歸誤差從正面測定線性模型的擬合優度,剩餘誤差則從反面來判定線性模型的擬合優度。
皮爾遜相關係數
皮爾遜相關係數和前文的擬合優度是直接關聯的,
其他的計算公式:
從上式可以得出r的一個優勢:消除了量綱的影響。
從上式中可以得到r和
對於一對關係(x,y)
- 如果r=1,那麼x和y存在一個非常完美的正相關線性關係
- 如果r=-1,那麼x和y存在一個非常完美的負相關線性關係
- 如果r=0,那麼x和y不存在線性關係
r的符號代表是正相關還是負相關,絕對值越接近1表示線性相關性越強。
注意點
- 決定係數或者說擬合優度,以及皮爾遜係數是用來量化變量x和y之間的線性關係,
r2 等於0並不代表x和y之間不存在關係,比如說y=x2 的擬合優度就是等於0。 r2 的值很大並不能說明迴歸的直線能很好擬合數據。其他的一些函數可能擬合的效果更好。- 一個或者一些點(異常點?)會對
r2,r 產生很大的影響。 r2 的值很大並不能說明x和y有實際意義的聯繫,統計意義上的線性關係並不能呢個說明有這樣的因果關係。比如說在法國,喝的酒越多心臟病越低。- 分清楚變量是對個體還是分組平均的。
- “具有統計意義的”r2值並不意味着斜率β1與0有意義的不同。統計意義並不意味着實際意義。
r2 的值很大並不意味着用這個直線預測的值有用,有可能預測區間或者置信區間太寬而沒用(?)。
假設檢驗(略)
參考資料
PennState Eberly College of Science 的在線課程
一些迴歸直線的相關係數例子
爲什麼樣本方差(sample variance)的分母是 n-1?
百度上關於決定係數、擬合優度的相關介紹