統計學~迴歸分析【第九周】

一元線性迴歸

相關關係

相關關係是值變量的數值之間存在這依存關係,即一個變量的數值會隨着另一個變量或幾個變量的數值變化而呈現出一定的變化規律。

例如:人的身高和體重的關係,居民收入增長率與物價指數的關係等等

相關關係的分類

根據相關關係的強度分類:分爲完全相關,弱相關和不相關三種。

根據相關關係的方向分類:分爲正相關和負相關兩種。

根據相關關係的形態分類:分爲線性相關關係和非線性相關關係。

在這裏插入圖片描述
也可根據相關關係的變量個數分類:分爲單相關關係、複相關關係和偏相關關係。

單相關關係是指兩個變量之間的關係,分爲自變量和因變量,也稱爲二元變量相關分析;
複相關關係是指三個或三個以上變量之間的關係,即一個因變量對兩個或兩個以上自變量的相關關係,也稱多重相關關係;
偏相關關係是指在一個因變量與多個自變量相關的情況下,只關心因變量與其中一個自變量的關係,屏蔽其他自變量對因變量的影響。

最小二乘法

最小二乘法(又稱最小平方法)是一種數學優化技術。它通過最小化誤差的平方和尋找數據的最佳函數匹配。
利用最小二乘法可以簡便地求得未知的數據,並使得這些求得的數據與實際數據之間誤差的平方和爲最小。

比如溫度與冰淇淋銷量的關係,參考大神博客如何理解最小二乘法

在這裏插入圖片描述
把上述的值畫在笛卡爾座標系中,溫度爲橫座標,銷量爲縱座標,分別記作yiy_i,此時溫度與銷量的關係看上去像是呈線性關係,如下圖:
在這裏插入圖片描述
可假設這種線性關係爲
f(x)=ax+b f(x) = ax + b

最小二乘法思想: 每個點都向y 做垂線,垂線的長度就是$| y-y_i|$,可以理解爲測量值和真實值之間的誤差。

因爲誤差是長度,還要取絕對值,計算起來比較麻煩,所以用平方來代表誤差:
ϵ=(f(xi)yi)2=(axi+byi)2 \epsilon = \sum( f(x_i) - y_i)^2 = \sum( ax_i + b - y_i)^2
在這裏插入圖片描述
當誤差值最小時,得到的f(x)f(x)值便時真值。
誤差最小時,分別對a,b求偏導,在這裏插入圖片描述

帶入上面溫度與銷量的數據,可解出:
在這裏插入圖片描述
即下面這條直線:
在這裏插入圖片描述

得到線性關係後,我們還可以對其他溫度下冰淇淋的銷量做預測。

擬合優度檢驗

擬合優度(Goodness of Fit)是指回歸直線對觀測值的擬合程度,是用來測量模型的迴歸程度好壞的。
擬合優度檢驗是假設檢驗的一種,用來檢測觀測數與根據模型計算得到的理論數之間的一種假設檢驗,以便於判斷該假設或模型是否與實際觀測數吻合。
具體步驟可參考:擬合優度檢驗

顯著性檢驗

我們知道,在假設檢驗中有兩類錯誤:

1.原假設實際爲真,但根據樣本數據判別爲拒絕,此類錯誤被稱爲“棄真”錯誤,即將真的當作假的。
2.原假設實際爲假,但根據樣本數據判別爲接受,此類錯誤被稱爲“取僞”錯誤,即將假的當作真的。

通常把第一類錯誤出現的概率記爲α,第二類錯誤出現的概率記爲β。通常只限定犯第一類錯誤的最大概率α, 不考慮犯第二類錯誤的概率β。我們把這樣的假設檢驗稱爲顯著性檢驗,並且稱概率α稱爲顯著性水平。

迴歸預測

迴歸分析預測法,是在分析市場現象自變量和因變量之間相關關係的基礎上,建立變量之間的迴歸方程,並將迴歸方程作爲預測模型,根據自變量在預測期的數量變化來預測因變量,關係大多表現爲相關關係。

迴歸預測法的步驟:

1.根據預測目標,確定自變量和因變量
明確預測的具體目標,也就確定了因變量。如預測具體目標是下一年度的銷售量,那麼銷售量Y就是因變量。通過市場調查和查閱資料,尋找與預測目標的相關影響因素,即自變量,並從中選出主要的影響因素。

2.建立迴歸預測模型
  依據自變量和因變量的歷史統計資料進行計算,在此基礎上建立迴歸分析方程,即迴歸分析預測模型。

3.進行相關分析
  迴歸分析是對具有因果關係的影響因素(自變量)和預測對象(因變量)所進行的數理統計分析處理。只有當變量與因變量確實存在某種關係時,建立的迴歸方程纔有意義。因此,作爲自變量的因素與作爲因變量的預測對象是否有關,相關程度如何,以及判斷這種相關程度的把握性多大,就成爲進行迴歸分析必須要解決的問題。進行相關分析,一般要求出相關關係,以相關係數的大小來判斷自變量和因變量的相關的程度。

4.檢驗迴歸預測模型,計算預測誤差
  迴歸預測模型是否可用於實際預測,取決於對迴歸預測模型的檢驗和對預測誤差的計算。迴歸方程只有通過各種檢驗,且預測誤差較小,才能將回歸方程作爲預測模型進行預測。

5.計算並確定預測值
  利用迴歸預測模型計算預測值,並對預測值進行綜合分析,確定最後的預測值。

殘差分析

殘差是指觀測值與預測值(擬合值)之間的差,即是實際觀察值與迴歸估計值的差。
在迴歸分析中,測定值與按回歸方程預測的值之差,並且殘差服從正態分佈,通常可以根據分析殘差的分佈情況來校驗模型的合理性。參考殘差分析

多元線性迴歸

多重共線性

在多元線性迴歸模型經典假設中,其重要假定之一是迴歸模型的解釋變量之間不存在線性關係,也就是說,解釋變量X1,X2,……,Xk中的任何一個都不能是其他解釋變量的線性組合。如果違背這一假定,即線性迴歸模型中某一個解釋變量與其他解釋變量間存在線性關係,就稱線性迴歸模型中存在多重共線性。多重共線性違背瞭解釋變量間不相關的古典假設,將給普通最小二乘法帶來嚴重後果。

解決方法可參考多重共線性問題的幾種解決方法

變量選擇與逐步迴歸

在建立迴歸模型時,首要問題是如何確定迴歸自變量,若遺漏了重要的變量,迴歸方程的效果肯定不會太好,但是當變量過多時,某些變量可能會重疊,某些程度上會增大計算量,迴歸方程穩定性也差,直接影響到迴歸方程的使用。
逐步迴歸是變量選擇裏面的一種方法,基本步驟如圖:

在這裏插入圖片描述

參考

關於顯著性檢驗,你想要的都在這兒了!!(基礎篇)

如何理解最小二乘法?

迴歸分析預測法

爲啥一定要用殘差圖檢查你的迴歸分析?

自變量選擇與逐步迴歸

總結

這一章的理論性比較強,後面需要參考例題進行應用。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章