一元線性迴歸

線性迴歸也被稱爲最小二乘法迴歸(Linear Regression,also called Ordinary LeastSquares(OLS)Regression).它的數學模型是這樣的:y=a+b*x+e,其中,a被稱位常熟項或截距、b被稱爲模型的迴歸係數或斜率、e爲誤差項。

a和b是模型的參數,當然,,模型的參數只能從樣本中估計出來:y=a+b*x,我們的目標是選擇合適的參數,讓這一線性模型最好地擬合觀測值,擬合程度越高,模型越好。我們可以通過用二維平面上的一條直線來表示,被稱爲迴歸線,模型的擬合程度越高,也即意味着樣本點圍繞迴歸線越緊密。

通常我們通過計算樣本點與迴歸線的緊密程度,即:被選擇的參數,應該是算出來的迴歸線與觀測值之差的平方和最小。這被稱爲最小二乘法,其原理爲:當預測值和實際值距離的品後方和最小時,就選定模型中的連個參數(a和b)這一模型並不一定反應解是變量和反應變量的真實的關係,但它的計算成本低,相比複雜模型更容易解釋。

Stardmodels是python中一個強大的統計分析包,包含了迴歸分析、時間序列分析、假設檢驗等等的功能。可以與python的其他任務(如numpy、pandas)有效結合,提高工作效率。

1.讀取數據

2.數據可視化

  1. 執行最小二乘迴歸

  1. 訓練具體模型及其統計量

(使用OLS對象的fit()方法進行模型擬合)

  1. 查看模型擬合結果

Result.summary()

 

說明:初學者只關注summary結果中的判定係數,各自變量對應的係數及P值即可。

.R-squared再統計學裏腳判定係數,或決定係數,也稱擬合優度,值在0到1之間,值越大,表示這個模型擬合的越好,在這裏0.991就擬合的很好

.coef:截距

.std err:是標準誤差

.t和p:這裏對每個係數做了個統計推斷,統計推斷的原假設是係數爲0,表示該係數在模型裏不用存在,不用麗姐原理和具體過程,可以直接看p值,P值如果很小,就推腹案原假設,即其實係數不爲0,該變量值在模型裏都是有意義十的,都應該存在模型裏。有些迴歸問題中,p值比較大,那麼對應的變量就可以扔掉。

  1. 理論上殘差應該服從正態分佈,可以檢驗下

p值很小,拒絕原假設,即殘差不服從正態分佈

  1. 查看殘差Durbin-Watson

德賓-沃森檢驗,簡稱D-W檢驗,是目前檢驗自相關性的最常用方法,但它只使用於檢驗一階自相關性。因爲自相關係數ρ的值介於-1和1之間,所以0≤DW≤4。並且DW=O=>ρ=1   即存在正自相關性

DW=4<=>ρ=-1 即存在負自相關性

DW=2<=>ρ=0  即不存在(一階)自相關性

因此,當DW值顯著接近與0或4時,則存在自相關性,而接近2時,則不存在(一階)自相關性。這樣只要知道DW統計量的概率分佈,在給定的顯著水平下,更具臨界值的位置就可以對原假設H0進行檢驗。

結果=0.31538,所以殘差存在自相關性。

  1. 模型預測

9 模型評價(畫出預測模型圖)

10 模型優化與重新選擇

Numpy.column_stack(tup)[source]: Stack 1-D arrays as columns into a 2-D array.

Numpy.power(x1, n): 對數組x1的元素分別求n次方

11.對模型進行預測

12.對優化後的模型作圖

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章