什麼是簡單線性迴歸

用統計的方法來得到連續自變量x和因變量y之間的線性關係。和一般線性迴歸的區別在於只有一個自變量。

華氏溫度和攝氏溫度之間的關係：

F a h r = 9 5 C e l s + 32

這是一個確定的線性關係，不是我們需要解決的問題。

相對的，我們要解決的問題是關於非確定的，如下所示，因變量y是一千萬人中因皮膚癌致死的人數，自變量x是美國49個州的緯度。

從上圖中可以看到緯度越高，越往北，由於皮膚癌致死的越少。上圖支持了該種假說。緯度和皮膚癌致死人數成反比，但是這種關係不怎麼好，看着不像一個線性的。圖中的散點表明了一種趨勢，也有離散的。因此這不是確定的關係，而是統計上的關係。

還有一些其他的統計上的關係，例如：

身高和體重。身高增加體重也會增加，但不是一個確定的線性關係
喝了多少酒和血液裏的酒精濃度
…

衡量擬合的好壞程度63280550

對於上圖總結的自變量身高和因變量體重之間的線性關係，哪條總結的比較好？

可以用如下方程來表示一條直線：

y^i = b 0 + b 1 x i

其中，圖中的一點代表一個樣本(xi , yi )，即一個學生的身高和體重，xi 表示第i個樣本的特徵值（自變量），yi 表示第i個樣本的實際值（因變量），y^i 表示第i個樣本的預測值。

一個點的誤差：

e i = y i - y^i

衡量一條直線總結其中關係的好壞，需要綜合所有的樣本點，所以使用均方誤差來綜合一條直線的誤差。然後就可以使用最小二乘方法來找到能使該誤差最小的參數b0,b1 ，從而確定這條最好的直線。

Q = \sum i = 1 n (y i - y^i) 2

最小二乘方法求解直線方程的參數

求解能使誤差Q最小的參數b0,b1 ，即求解如下的規劃模型：

m i n Q = \sum i = 1 n (y i - (b 0 + b 1 x i)) 2

通過Q對b0,b1 求導置爲0，即求解極值

⎧ ⎩ ⎨ \partial Q \partial b 0 = 0 \partial Q \partial b 1 = 0

二元一次方程，用克拉默法則可以得到解：

b 0 = y ¯ - b 1 x ¯

b 1 = \sum n i = 1 ( x i - x ¯ ) ( y i - y ¯ ) \sum n i = 1 ( x i - x ¯ ) 2

由於是根據最小二乘原則得出的結果，所以一般把這條直線叫做最小二乘迴歸線。只做了一個假設，這對非確定的關係是一個線性的趨勢。

簡單線性迴歸模型

對於如下的一個高校績點平均和學生入學成績之間的關係：

我們可以根據最小二乘方法擬合出一條直線μY=E(Y)=β0+β1x ，叫做總體迴歸線，即從所有的數據中總結出的直線規律。當然對於每一個學生，可以通過平均績點來估計其入學測試的分數，E(Yi)=β0+β1xi 。但是很顯然，這個分數和該同學實際的分數不一樣，存在一些誤差ϵi 。因此另外有一個描述簡單線性迴歸模型的方式：yi=E(Yi)+ϵi=β0+β1xi+ϵi 。

因此，爲了得出關於人口參數β0和β1 的任何結論，我們必須對迴歸設置中數據的行爲進行更多的假設。

首先看各績點的平均值，連接它以後會得到一條直線，把這條直線作爲我們預測的關係是否合適？
各績點上的樣本點都在直線附近，而且都在3以內，把這些誤差繪製成一條曲線，會是一個正態分佈嗎？
各績點上的樣本點差距都類似，那麼可以假設它們的方差一樣嗎？
假設一個學生的誤差和其他學生的誤差無關。

總結如上，我們得到了組成簡單線性迴歸模型的4個條件：

因變量的均值E(Yi) 和xi 成一個線性的關係
誤差ϵi 是相互獨立的
誤差ϵi 在每個樣本點都是正態分佈
誤差ϵi 在每個樣本點的方差σ2 相等

常見誤差方差

上一個例子中我們看到對於每類績點樣本點和平均直線的差距類似，有着相同的方差σ2 。方差σ2 是用來量化因變量（y）和平均總體迴歸線（未知）的偏離程度。研究方差有助於估計迴歸線最常用的方法有關，即預測一些未來的反應。

對於如下兩個溫度計AB，都可以測量攝氏溫度和華氏溫度，分別測量了十天的溫度，得到如下的兩個溫度計的關係圖。

溫度計B上的點相對A來說，偏離迴歸方程不多。因此用溫度計B來預測華氏溫度，和實際的結果偏差不大，而溫度計A來說就相差有點多。所以用溫度計B來預測更準確。

那麼怎麼去衡量這個相差程度呢？答案是方差σ2 。但是方差是一個總體的參數，所以只能去估計方差的值。

估計方差

上圖中是IQ的統計圖。IQ的平均是100，那麼怎麼衡量其他人對這個平均值的偏離程度。使用樣本方差來估計總體方差：

s 2 = \sum n i = 1 ( y i - y ¯ ) 2 n - 1

樣本方差的分佈爲什麼是n-1？

簡單來說就是樣本方差是對總體方差的一個無偏估計，不知道總體的均值，所以損失一個自由度。

均方誤差MSE：

M S E = \sum n i = 1 ( y i - y i ^ ) 2 n - 2

因爲yi^=β0+β1xi 有兩個未知參數，損失兩個自由度，所有分母是n-2。

決定係數，或擬合優度r2

用來分清自變量和因變量之間的相關關係是否強烈。首先介紹一下用來評價迴歸直線的3個參數。

SSR，迴歸平方和，用來量化迴歸直線估計的yi^ 和樣本均值或者y¯ 相差多少
SSE，殘差平方和，計算估計值yi^ 和實際值yi 相差多少
SSTO，總離差平方和，計算實際值yi 和均值y¯ 相差多少

舉例說明一下自變量和因變量之間的相關關係強弱，對比以上3個參數：

S S R S S E S S T O = = = \sum i = 1 n (y i^- y i ¯) 2 = 119.1 \sum i = 1 n (y i - y i^) 2 = 1708.5 \sum i = 1 n (y i - y i ¯) 2 = 1827.6

S S R S S E S S T O = = = \sum i = 1 n (y i^- y i ¯) 2 = 6679.3 \sum i = 1 n (y i - y i^) 2 = 1708.5 \sum i = 1 n (y i - y i ¯) 2 = 8487.8

其中SSTO是SSR和SSE的和。對於第一種情況，總偏離大多來自於SSE，而第二種情況大多來自於SSR。

擬合優度的計算

r 2 = S S R S S T O = 1 - S S E S S T O

分別計算上述兩種情況下的擬合優度，分別爲0.065和0.799。

有如下一些結論：

擬合優度是一個比例，所以取值範圍爲在[0,1]
如果擬合優度爲1，說明SSE爲0，也就是殘差平方和爲0，估計值和實際值一樣
如果擬合優度爲0，說明SSR爲0，也就是迴歸平方和爲0，估計出來的迴歸線是水平的

R²衡量的是迴歸方程整體的擬合度，是表達因變量與所有自變量之間的總體關係。R²等於迴歸平方和在總平方和中所佔的比率，即迴歸方程所能解釋的因變量變異性的百分比（在MATLAB中，R²=1-“迴歸平方和在總平方和中所佔的比率”）。實際值與平均值的總誤差中，迴歸誤差與剩餘誤差是此消彼長的關係。因而回歸誤差從正面測定線性模型的擬合優度，剩餘誤差則從反面來判定線性模型的擬合優度。

皮爾遜相關係數

皮爾遜相關係數和前文的擬合優度是直接關聯的，r2 中的r就是皮爾遜相關係數。如果斜率係數b1 是正數，那麼r就是正數，否則就是負數。由於擬合優度在區間[0,1]中，所以皮爾遜係數在區間[-1,1]之間。

其他的計算公式：

r = \sum n i = 1 ( x i - x ¯ ) ( y i - y ¯ ) \sum n i = 1 ( x i - x ¯ ) 2 ( y i - y ¯ ) 2 - - - - - - - - - - - - - - - - - - - \sqrt

從上式可以得出r的一個優勢：消除了量綱的影響。

r = \sum n i = 1 ( x i - x ¯ ) 2 - - - - - - - - - - - - \sqrt \sum n i = 1 ( y i - y ¯ ) 2 - - - - - - - - - - - - \sqrt \times b 1

從上式中可以得到r和b1 相關。

對於一對關係(x,y)

如果r=1，那麼x和y存在一個非常完美的正相關線性關係
如果r=-1，那麼x和y存在一個非常完美的負相關線性關係
如果r=0，那麼x和y不存在線性關係

r的符號代表是正相關還是負相關，絕對值越接近1表示線性相關性越強。

注意點

決定係數或者說擬合優度，以及皮爾遜係數是用來量化變量x和y之間的線性關係，r2 等於0並不代表x和y之間不存在關係，比如說y=x2 的擬合優度就是等於0。
r2 的值很大並不能說明迴歸的直線能很好擬合數據。其他的一些函數可能擬合的效果更好。
一個或者一些點（異常點？）會對r2,r 產生很大的影響。
r2 的值很大並不能說明x和y有實際意義的聯繫，統計意義上的線性關係並不能呢個說明有這樣的因果關係。比如說在法國，喝的酒越多心臟病越低。
分清楚變量是對個體還是分組平均的。
“具有統計意義的”r2值並不意味着斜率β1與0有意義的不同。統計意義並不意味着實際意義。
r2 的值很大並不意味着用這個直線預測的值有用，有可能預測區間或者置信區間太寬而沒用（？）。

假設檢驗（略）

參考資料

PennState Eberly College of Science 的在線課程
 一些迴歸直線的相關係數例子
 爲什麼樣本方差（sample variance）的分母是 n-1？
百度上關於決定係數、擬合優度的相關介紹

簡單線性迴歸

什麼是簡單線性迴歸

衡量擬合的好壞程度63280550

最小二乘方法求解直線方程的參數

簡單線性迴歸模型

常見誤差方差

估計方差

決定係數，或擬合優度r2

擬合優度的計算

皮爾遜相關係數

注意點

假設檢驗（略）

參考資料

AI 畫圖真刺激，手把手教你如何用 ComfyUI 來畫出刺激的圖

公司剛入職了一名 Java 中級開發，短短 4 行代碼居然湊齊了 3 個 bug！我哭了~~

數據展示動態（跑分）顯示

公衆號5月C#/.NET熱文一覽

git 下載大陸鏡像地址

第2次課改善深層神經網絡：超參數優化、正則化以及優化 - week2 優化算法

第2次課改善深層神經網絡：超參數優化、正則化以及優化 - week3 超參數調試、Batch正則化和程序框架

win7下xgboost安裝教程

Kaggle-Titanic一個完整的例子

xgboost+python參數介紹的簡單使用

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結