一元線性迴歸

原創

2018-11-26 05:26

線性迴歸也被稱爲最小二乘法迴歸(Linear Regression,also called Ordinary LeastSquares(OLS)Regression).它的數學模型是這樣的：y=a+b*x+e,其中，a被稱位常熟項或截距、b被稱爲模型的迴歸係數或斜率、e爲誤差項。

a和b是模型的參數，當然，，模型的參數只能從樣本中估計出來：y’=a’+b’*x，我們的目標是選擇合適的參數，讓這一線性模型最好地擬合觀測值，擬合程度越高，模型越好。我們可以通過用二維平面上的一條直線來表示，被稱爲迴歸線，模型的擬合程度越高，也即意味着樣本點圍繞迴歸線越緊密。

通常我們通過來計算樣本點與迴歸線的緊密程度，即：被選擇的參數，應該是算出來的迴歸線與觀測值之差的平方和最小。這被稱爲最小二乘法，其原理爲：當預測值和實際值距離的品後方和最小時，就選定模型中的連個參數（a和b）這一模型並不一定反應解是變量和反應變量的真實的關係，但它的計算成本低，相比複雜模型更容易解釋。

Stardmodels是python中一個強大的統計分析包，包含了迴歸分析、時間序列分析、假設檢驗等等的功能。可以與python的其他任務（如numpy、pandas）有效結合，提高工作效率。

1.讀取數據

2.數據可視化

執行最小二乘迴歸

訓練具體模型及其統計量

（使用OLS對象的fit()方法進行模型擬合）

查看模型擬合結果

Result.summary()

說明：初學者只關注summary結果中的判定係數，各自變量對應的係數及P值即可。

.R-squared再統計學裏腳判定係數，或決定係數，也稱擬合優度，值在0到1之間，值越大，表示這個模型擬合的越好，在這裏0.991就擬合的很好

.coef:截距

.std err:是標準誤差

.t和p：這裏對每個係數做了個統計推斷，統計推斷的原假設是係數爲0，表示該係數在模型裏不用存在，不用麗姐原理和具體過程，可以直接看p值，P值如果很小，就推腹案原假設，即其實係數不爲0，該變量值在模型裏都是有意義十的，都應該存在模型裏。有些迴歸問題中，p值比較大，那麼對應的變量就可以扔掉。

理論上殘差應該服從正態分佈，可以檢驗下

p值很小，拒絕原假設，即殘差不服從正態分佈

查看殘差Durbin-Watson

德賓-沃森檢驗，簡稱D-W檢驗，是目前檢驗自相關性的最常用方法，但它只使用於檢驗一階自相關性。因爲自相關係數ρ的值介於-1和1之間，所以0≤DW≤4。並且DW＝O＝＞ρ＝１　　即存在正自相關性

DW＝４＜＝＞ρ＝－１　即存在負自相關性

DW＝２＜＝＞ρ＝０　　即不存在（一階）自相關性

因此，當DW值顯著接近與0或4時，則存在自相關性，而接近2時，則不存在（一階）自相關性。這樣只要知道DW統計量的概率分佈，在給定的顯著水平下，更具臨界值的位置就可以對原假設H0進行檢驗。

結果=0.31538，所以殘差存在自相關性。

模型預測

9 模型評價（畫出預測模型圖）

10 模型優化與重新選擇

Numpy.column_stack(tup)[source]: Stack 1-D arrays as columns into a 2-D array.

Numpy.power(x1, n): 對數組x1的元素分別求n次方

11.對模型進行預測

12.對優化後的模型作圖

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

亂序拼圖驗證的識別並還原 puzzle-captcha（開源）

一、前言亂序拼圖驗證是一種較少見的驗證碼防禦，市面上更多的是拖動滑塊，被完美攻克的有不少，都在行爲軌跡上下足了功夫，本文不討論軌跡模擬範疇，就只針對拼圖還原進行研究。找一個市面比較普及的頂像亂序拼圖進行驗證，它號稱的防禦能力4星，

2021-12-01 00:53:28

【轉載】Python處理csv文件

Python處理csv文件 CSV(Comma-Separated Values)即逗號分隔值，可以用Excel打開查看。由於是純文本，任何編輯器也都可打開。與Excel文件不同，CSV文件中：值沒有類型，所有值都是字符串不能指定字

2020-07-18 14:25:30

Error:field larger than field limit(131072)解決方法

從csv文件讀取某一列的數據時，報錯顯示：Error:field larger than field limit(131072) 通過判斷髮現是因爲文件的行數超過csv限制的行數，所以導致結果既無法在控制檯打印，試着轉到df,存成csv文

2020-07-08 12:39:29

啓動Jupyter時, 遇到 sudo: jupyterhub: command not found 問題的解決方案

最近在學習Jupyter, 但是我發現啓動不了多用戶的JupyterHub 官網的教程: sudo jupyterhub 直接輸入就會導致這樣子的結果後面我各種谷歌百度,都好複雜,然後我突然想到,這是沒有Jupyterhub

钢琴线与小刀

2020-07-08 12:39:19

Python小記 —— 文件讀寫操作裏read()方法的深究

** 語法 ** 格式：read(size) 在read()方法裏，size表示要從文件中讀取的數據長度，如果沒有指定size或者指定爲“None”就表示讀取文件裏的全部數據。特別需要注意點： read()的讀取機制因訪問文件

2020-07-08 12:33:27

python使用pip指令安裝並引用第三方模塊及注意事項

python裏有內置模塊、自定義模塊還有第三方模塊。內置模塊就是python自帶的模塊了，我們直接引用就可以了，如：import sys。自定義模塊就是按照我們編程者的需求以方便編寫程序和維護代碼的一些“.py文件”，簡單地說，

2020-07-08 12:33:27

python小記 —— sys.argv

sys.argv到底是什麼? sys.argv是運行在黑屏終端運行python文件獲取的參數。即返回一個包含輸入參數的列表。話不多說了看下面，反手就是一堆代碼： import sys print("list長度：",len(sy

2020-07-08 12:33:16

Django Signals 信號

文章目錄Django Signals 信號入門connect Django Signals 信號入門 # receiver 接收者 def my_callback(sender, **kwargs): print sen

2020-07-08 12:31:35

sorted 在python2和3中的區別

文章目錄sorted 在python2和3中的區別 sorted 在python2和3中的區別 python3中取消了cmp參數 python3中的使用方法如下: from functools import cmp_to_key

2020-07-08 12:31:35

python3 排序 sort sorted

排序穩定性和排序複雜度排序保證是穩定的。這意味着當多個記錄具有相同的鍵值時，將保留其原始順序。 >>> data = [('red', 1), ('blue', 1), ('red', 2), ('blue', 2)] >

2020-07-08 12:31:35

python3 super 用法2

class MetaCls(type): def __new__(cls, *args, **kwargs): print("in MetaCls") # return super(Meta

2020-07-08 12:31:35

meta class 和類裝飾器的執行順序

meta class 和類裝飾器的執行順序先執行decorator,後執行metaclass 程序是從上到下執行,先遇到decorator,後遇到class,創建class 調用metaclass. 同理,裝飾器也是先執行上面的

2020-07-08 12:31:35

弱引用 weakref

弱引用 weakref 對對象的弱引用不能保證對象存活：當對像的引用只剩弱引用時， garbage collection 可以銷燬引用並將其內存重用於其他內容。但是，在實際銷燬對象之前，即使沒有強引用，弱引用也一直能返回該對象。

2020-07-08 12:31:35

python神級數據結構namedtuple

python神級數據結構namedtuple from collections import namedtuple 以前就知道有這個東西,也知道如何使用,但是沒覺得有什麼實際用處. 上次看框架源碼,無意間看到這個,發現非常好用.

2020-07-08 12:31:35

python3 super 用法

python3 super 用法標題黨了. 其實我也不確定這是不是python3的用法. 但是,今天工作的時候遇到了不一樣的寫法,試了一下,運行成功. 剛剛在官網找到了一個例子.以後用的更有底氣了. class C(B):

2020-07-08 12:31:35

24小時熱門文章

最新文章

最新評論文章