做完線性迴歸後應該知道的知識

線性迴歸聽着很簡單,很早也就學過,以前就只會擬合模型,擬合出來看看R方就完事了,到最近一次作業纔有一些真正的理解,正好看到一篇不錯的文章,轉載過來。


理解什麼是線性迴歸

線性迴歸也被稱爲最小二乘法迴歸(Linear Regression, also called Ordinary Least-Squares (OLS) Regression)。它的數學模型是這樣的:

y = a+ b* x+e

其中,a 被稱爲常數項或截距;b 被稱爲模型的迴歸係數或斜率;e 爲誤差項。a 和 b 是模型的參數。

當然,模型的參數只能從樣本數據中估計出來:

y'= a' + b'* x

我們的目標是選擇合適的參數,讓這一線性模型最好地擬合觀測值。擬合程度越高,模型越好。
那麼,接下來的問題就是,我們如何判斷擬合的質量呢?

這一線性模型可以用二維平面上的一條直線來表示,被稱爲迴歸線。

模型的擬合程度越高,也即意味着樣本點圍繞回歸線越緊密。

如何計算樣本點與迴歸線之間的緊密程度呢?

高斯和勒讓德找到的方法是:被選擇的參數,應該使算出來的迴歸線與觀測值之差的平房和最小。用函數表示爲:

這被稱爲最小二乘法。最小二乘法的原理是這樣的:當預測值和實際值距離的平方和最小時,就選定模型中的兩個參數(a 和 b)。這一模型並不一定反映解釋變量和反應變量真實的關係。但它的計算成本低;相比複雜模型更容易解釋。

模型

估計出來後,我們要回答的問題是:

  • 我們的模型擬合程度如何?或者說,這個模型對因變量的解釋力如何?(R2)
  • 整個模型是否能顯著預測因變量的變化?(F 檢驗)
  • 每個自變量是否能顯著預測因變量的變化?(t 檢驗)

首先回答第一個問題。爲了評估模型的擬合程度如何,我

們必須有一個可以比較的基線模型。

如果讓你預測一個人的體重是多少?在沒有任何額外信息的情況下,你可能會用平均值來預測,儘管會存在一定誤差,但總比瞎猜好。

現在,如果你知道他的身高信息,你的預測值肯定與平均值不一樣。額外信息相比平均值更能準確地預測被預測的變量的能力,就代表模型的解釋力大小。

上圖中,SSA 代表由自變量 x 引起的 y 的離差平方和,即迴歸平方和,代表迴歸模型的解釋力;SSE 代表由隨機因素引起的 y 的離差平方和,即剩餘平方和,代表迴歸模型未能解釋的部分;SST 爲總的離差平方和,即我們僅憑 y 的平均值去估計 y 時所產生的誤差。

用模型能夠解釋的變異除以總的變異就是模型的擬合程度:
R2=SSA/SST=1-SSE

R2(R 的平方)也被稱爲決定係數或判定係數。

第二個問題,我們的模型是否顯著預測了 y 的變化?

假設 y 與 x 的線性關係不明顯,那麼 SSA 相對 SSE 佔有較大的比例的概率則越小。換句話說,在 y 與 x 無線性關係的前提下,SSA 相對 SSE 的佔比越高的概率是越小的,這會呈現一定的概率分佈。統計學家告訴我們它滿足 F 分佈,就像這樣:

如果 SSA 相對 SSE 佔比較大的情況出現了,比如根據 F 分佈,這個值出現的概率小於 5%。那麼,我們最好是拒絕 y 與 x 線性關係不顯著的原始假設,認爲二者存在顯著的線性關係較爲合適。

第三個問題,每個自變量是否能顯著預測因變量的變化?換句話說,迴歸係數是否顯著?

迴歸係數的顯著性檢驗是圍繞回歸係數的抽樣分佈(t 分佈)來進行的,推斷過程類似於整個模型的檢驗過程,不贅言。

實際上,對於只有一個自變量的一元線性模型,模型的顯著性檢驗和迴歸係數的檢驗是一致的,但對於多元線性模型來說,二者就不能等價了。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章