迴歸分析是數據分析中最基礎也是最重要的分析工具,絕大多數的數據分析問題,都可以使用迴歸的思想來解決。迴歸分析的任務就是, 通過研究自變量X和因變量Y的相關關係,嘗試去解釋Y的形成機制,進而達到通過X去預測Y的目的。
迴歸分析的使命:
使命1:迴歸分析要去識別並判斷:哪些X變量是同Y真的相關,哪些不是。統計學中有一個非常重要的領域,叫做“變量選擇”。(逐步迴歸法)
使命2:去除了那些同Y不相關的X變量,那麼剩下的,就都是重要的、有用的X變量了。接下來回歸分析要回答的問題是:這些有用的X變量同Y的相關關係是正的呢,還是負的?
使命3:在確定了重要的X變量的前提下,我們還想賦予不同X不同的權重,也就是不同的迴歸係數,進而我們可以知道不同變量之間的相對重要性。這就是迴歸分析要完成的三個使命:
第一、識別重要變量; 第二、判斷相關性的方向; 第三、要估計權重(迴歸係數)。
多元線性迴歸進行數據處理時使用的軟件爲stata,使用命令如下:
import 數據-> 新建do文件,sum做定量分析,tab作定性分析,reg做迴歸分析,stepwise regress做逐步迴歸,VIF(方差膨脹因子),r,b(標準化迴歸),(鍵盤)pageup(歷史命令查詢)
例題:下表是1990-2007年中國棉花單產與要素投入表格。請對5個要素投入做共線性診斷,並做單產對於5個要素投入的逐步迴歸模型,指出哪個要素投入是最重要的要素?
表 1990-2007年中國棉花單產與要素投入
年 份 |
單產 kg/公頃 |
種子費 元/公頃 |
化肥費 元/公頃 |
農藥費 元/公頃 |
機械費 元/公頃 |
灌溉費 元/公頃 |
1990 |
1017.0 |
106.05 |
495.15 |
305.1 |
45.9 |
56.1 |
1991 |
1036.5 |
113.55 |
561.45 |
343.8 |
68.55 |
93.3 |
1992 |
792.0 |
104.55 |
584.85 |
414 |
73.2 |
104.55 |
1993 |
861.0 |
132.75 |
658.35 |
453.75 |
82.95 |
107.55 |
1994 |
901.5 |
174.3 |
904.05 |
625.05 |
114 |
152.1 |
1995 |
922.5 |
230.4 |
1248.75 |
834.45 |
143.85 |
176.4 |
1996 |
916.5 |
238.2 |
1361.55 |
720.75 |
165.15 |
194.25 |
1997 |
976.5 |
260.1 |
1337.4 |
727.65 |
201.9 |
291.75 |
1998 |
1024.5 |
270.6 |
1195.8 |
775.5 |
220.5 |
271.35 |
1999 |
1003.5 |
286.2 |
1171.8 |
610.95 |
195 |
284.55 |
2000 |
1069.5 |
282.9 |
1151.55 |
599.85 |
190.65 |
277.35 |
2001 |
1168.5 |
317.85 |
1105.8 |
553.8 |
211.05 |
290.1 |
2002 |
1228.5 |
319.65 |
1213.05 |
513.75 |
231.6 |
324.15 |
2003 |
1023 |
368.4 |
1274.1 |
567.45 |
239.85 |
331.8 |
2004 |
1144.5 |
466.2 |
1527.9 |
487.35 |
408 |
336.15 |
2005 |
1122 |
449.85 |
1703.25 |
555.15 |
402.3 |
358.8 |
2006 |
1276.5 |
537 |
1888.5 |
637.2 |
480.75 |
428.4 |
2007 |
1233 |
565.5 |
2009.85 |
715.65 |
562.05 |
456.9 |
1、有定量數據的做定量數據分析
對數據進行描述性統計命令 :‘sum 變量1 變量2 ...’
2、做迴歸分析
設原假設爲H0: beta1=beta2=beta3=beta4=beta5=0
2.1對模型進行迴歸分析、方差分析
stata命令 ‘reg 因變量 自變量1 自變量2 ...’
分析:得到聯合顯著性檢驗F(5,12)=6.86,P值(Prob>F=0.0031) P值<0.05,在95%的置信區間下拒絕原假設;R^2=0.7408,調整後R^2=0.6327,調整後擬合優度與調整前差別較大,數據之間可能有完全多重共線性影響。
考慮到對棉花產量的迴歸是解釋性迴歸,對R^2的要求不是很高,主要關注模型整體的顯著性以及自變量的統計顯著性和經濟意義顯著性。
設原假設爲H0: beta1=beta2=beta3=beta4=beta5=0
分析:P<0.05表示在95%的置信水平下,該回歸的係數顯著的異於0,而對棉花的產量進行迴歸分析的,各系數的p值均>0.05,說明t檢驗的結果均不顯著,進一步說明可能存在多重共線性影響。
2.2異方差檢驗
懷特檢驗
原假設:不存在異方差
分析:異方差檢驗的p值=0.3888>0.05,在95%的置信水平下不能拒絕原假設,即接受原假設,不存在異方差的影響。
2.3檢驗多重共線性
對數據進行迴歸分析後,t檢驗得到的結果不具有顯著性,考慮到迴歸模型可能存在多重共線性的影響,多重共線性會使R方很大,F檢驗顯著,但t檢驗是不顯著的,檢驗多重貢獻性用方差膨脹因子(Variance Inflation Factor)VIF
假設有k個自變量,,,第m個自變量的VIFm=...VIFm越大,說明第m個變量和其他變量的相關性越大,一般認爲VIF>10,該回歸方程存在嚴重多重共線性。
分析:除農藥費這個自變量其他變量的VIF均大於10,因此,這四個變量具有多重共線性的影響,由於多重共線性影響到了結果的顯著性,爲此採用逐步迴歸的方法解決。
2.4向後逐步迴歸
P檢驗的值均小於0.05,在95%的置信水平下拒絕原假設,即農藥費和灌溉費兩個變量是顯著的。
得到方程爲:
Y=-0.367914X1+1.110757X2+973.365
迴歸係數的解釋:
由此可以看出,當其他自變量不變的情況下,農藥費每增加收入1元,棉花單產量就會較少0.367914kg;其他自變量不變的情況下,灌溉費每增加1元,棉花單產量就會增加1.110757kg。
分析:在對逐步迴歸進行標準化迴歸,灌溉費變量的係數爲1.110大於農藥費係數絕對值0.367,因此對棉花產量影響最大的是灌溉費