做完線性迴歸後應該知道的知識

原創

fff2zrx

2020-06-28 17:49

線性迴歸聽着很簡單，很早也就學過，以前就只會擬合模型，擬合出來看看R方就完事了，到最近一次作業纔有一些真正的理解，正好看到一篇不錯的文章，轉載過來。

理解什麼是線性迴歸

線性迴歸也被稱爲最小二乘法迴歸（Linear Regression, also called Ordinary Least-Squares (OLS) Regression）。它的數學模型是這樣的：

y = a+ b* x＋e

其中，a 被稱爲常數項或截距；b 被稱爲模型的迴歸係數或斜率；e 爲誤差項。a 和 b 是模型的參數。

當然，模型的參數只能從樣本數據中估計出來：

y'= a' + b'* x

我們的目標是選擇合適的參數，讓這一線性模型最好地擬合觀測值。擬合程度越高，模型越好。
那麼，接下來的問題就是，我們如何判斷擬合的質量呢？

這一線性模型可以用二維平面上的一條直線來表示，被稱爲迴歸線。

模型的擬合程度越高，也即意味着樣本點圍繞回歸線越緊密。

如何計算樣本點與迴歸線之間的緊密程度呢？

高斯和勒讓德找到的方法是：被選擇的參數，應該使算出來的迴歸線與觀測值之差的平房和最小。用函數表示爲：

這被稱爲最小二乘法。最小二乘法的原理是這樣的：當預測值和實際值距離的平方和最小時，就選定模型中的兩個參數（a 和 b）。這一模型並不一定反映解釋變量和反應變量真實的關係。但它的計算成本低；相比複雜模型更容易解釋。

模型

估計出來後，我們要回答的問題是：

我們的模型擬合程度如何？或者說，這個模型對因變量的解釋力如何？（R2）

整個模型是否能顯著預測因變量的變化？（F 檢驗）

每個自變量是否能顯著預測因變量的變化？（t 檢驗）

首先回答第一個問題。爲了評估模型的擬合程度如何，我

們必須有一個可以比較的基線模型。

如果讓你預測一個人的體重是多少？在沒有任何額外信息的情況下，你可能會用平均值來預測，儘管會存在一定誤差，但總比瞎猜好。

現在，如果你知道他的身高信息，你的預測值肯定與平均值不一樣。額外信息相比平均值更能準確地預測被預測的變量的能力，就代表模型的解釋力大小。

上圖中，SSA 代表由自變量 x 引起的 y 的離差平方和，即迴歸平方和，代表迴歸模型的解釋力；SSE 代表由隨機因素引起的 y 的離差平方和，即剩餘平方和，代表迴歸模型未能解釋的部分；SST 爲總的離差平方和，即我們僅憑 y 的平均值去估計 y 時所產生的誤差。

用模型能夠解釋的變異除以總的變異就是模型的擬合程度：
R2=SSA/SST=1-SSE

R2（R 的平方）也被稱爲決定係數或判定係數。

第二個問題，我們的模型是否顯著預測了 y 的變化？

假設 y 與 x 的線性關係不明顯，那麼 SSA 相對 SSE 佔有較大的比例的概率則越小。換句話說，在 y 與 x 無線性關係的前提下，SSA 相對 SSE 的佔比越高的概率是越小的，這會呈現一定的概率分佈。統計學家告訴我們它滿足 F 分佈，就像這樣：

如果 SSA 相對 SSE 佔比較大的情況出現了，比如根據 F 分佈，這個值出現的概率小於 5%。那麼，我們最好是拒絕 y 與 x 線性關係不顯著的原始假設，認爲二者存在顯著的線性關係較爲合適。

第三個問題，每個自變量是否能顯著預測因變量的變化？換句話說，迴歸係數是否顯著？

迴歸係數的顯著性檢驗是圍繞回歸係數的抽樣分佈（t 分佈）來進行的，推斷過程類似於整個模型的檢驗過程，不贅言。

實際上，對於只有一個自變量的一元線性模型，模型的顯著性檢驗和迴歸係數的檢驗是一致的，但對於多元線性模型來說，二者就不能等價了。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

做完線性迴歸後應該知道的知識

《日本蠟燭圖》讀書筆記 & 技術分析回測

一分鐘部署 Llama3 中文大模型，沒別的，就是快

Python多線程編程深度探索：從入門到實戰

《期貨-市場技術分析》讀書筆記

mongodb處理json數據很好

頂級 Javaer 都在用的 20 個類庫，真香！

[轉帖]cpupower

google瀏覽器插件開發

35K*14 薪，入職了！這公司只要不裁員，我能一直呆下去！

ffmpeg 百度雲盤

Spark學習筆記（二）：RDD編程基礎

如何加載訓練完畢後的模型文件繼續訓練模型

做完線性迴歸後應該知道的知識

Python3正則匹配

pandas學習（三）：數據拼接、數據合併和數據聚合

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結