迴歸分析之線性迴歸

1迴歸分析

1.1概念

迴歸分析英語Regression Analysis)是一種統計學上分析數據的方法,目的在於瞭解兩個或多個變量間是否相關、相關方向與強度,並建立數學模型以便觀察特定變量來預測研究者感興趣的變量。
運用十分廣泛,迴歸分析按照涉及的自變量的多少,可分爲一元迴歸分析和多元迴歸分析;按照自變量因變量之間的關係類型,可分爲線性迴歸分析和非線性迴歸分析。如果在迴歸分析中,只包括一個自變量和一個因變量,且二者的關係可用一條直線近似表示,這種迴歸分析稱爲一元線性迴歸分析。如果迴歸分析中包括兩個或兩個以上的自變量,且因變量和自變量之間是線性關係,則稱爲多元線性迴歸分析。

迴歸分析的一般流程是:
(1)確定Y與X間的定量關係表達式,這種表達式稱爲迴歸方程;
(2)對求得的迴歸方程的可信度進行檢驗;
(3)判斷自變量X對因變量Y有無影響;
(4)利用所求得的迴歸方程進行預測和控制。

1.2 效果分析-統計檢驗

主要有擬合優度檢驗R^2,顯著性檢驗T, 顯著性檢驗F。

R    R^2表示的是擬合優度,它是用來衡量估計的模型對觀測值的擬合程度。它的值越接近1說明模型越好。
F的值是迴歸方程顯著性檢驗,表示的是模型中被解釋變量與所有解釋變量之間的線性關係在總體上是否顯著做出推斷。若F>Fa(k-1,n-k),則拒絕原假設,即認爲列入模型的各個解釋變量聯合起來對被解釋變量有顯著影響,反之,則無顯著影響。
T的數值表示的是對單個迴歸參數的顯著性檢驗值,它的絕對值大於等於ta/2(n-k)(這個值表示的是根據你的置信水平自由度得出的數值)時,就拒絕原假設,即認爲在其他解釋變量不變的情況下,解釋變量X對被解釋變量Y的影響是顯著的。
參考自:http://course.cug.edu.cn/cugThird/Econometrics/Chapter_study/chapter_3_2.htm


2 線性迴歸

2.1概念

本質上建立變量之間的線性關係,表現形式就是線性方程y=ax+b,例如給出兩組數據x={0, 1, 2, 3, 4, 5}, y={0, 20, 60, 68, 77, 110},擬合出直線。線性迴歸模型經常用最小二乘逼近來擬合。
線性迴歸是利用數理統計中的迴歸分析,來確定兩種或兩種以上變量間相互依賴的定量關係的一種統計分析方法,運用十分廣泛。分析按照自變量因變量之間的關係類型,可分爲線性迴歸分析和非線性迴歸分析。統計學中,線性迴歸(Linear Regression)是利用稱爲線性迴歸方程的最小平方函數對一個或多個自變量因變量之間關係進行建模的一種迴歸分析
線性迴歸模型經常用最小二乘逼近來擬合,但他們也可能用別的方法來擬合,比如用最小化“擬合缺陷”在一些其他規範裏(比如最小絕對誤差迴歸),或者在橋迴歸中最小化最小二乘損失函數的懲罰.相反,最小二乘逼近可以用來擬合那些非線性的模型.因此,儘管“最小二乘法”和“線性模型”是緊密相連的,但他們是不能劃等號的

2.2用途

線性迴歸有很多實際用途。分爲以下兩大類:
如果目標是預測或者映射,線性迴歸可以用來對觀測數據集的和X的值擬合出一個預測模型。當完成這樣一個模型以後,對於一個新增的X值,在沒有給定與它相配對的y的情況下,可以用這個擬合過的模型預測出一個y值。
給定一個變量y和一些變量X1,...,Xp,這些變量有可能與y相關,線性迴歸分析可以用來量化y與Xj之間相關性的強度,評估出與y不相關的Xj,並識別出哪些Xj的子集包含了關於y的冗餘信息。

2.3假設檢驗

線性關係: Y=A+BX+§
式中:A和B爲待定參數,A爲迴歸直線的截距;B爲迴歸直線的斜率,表示X變化一個單位時,Y的平均變化情況;§爲依賴於用戶滿意度的隨機誤差項
對於經驗迴歸方程: y=0.857+0.836x
迴歸直線在y軸上的截距爲0.857、斜率0.836,即質量每提高一分,用戶滿意度平均上升0.836分;或者說質量每提高1分對用戶滿意度的貢獻是0.836分。
上面所示的例子是簡單的一個自變量的線性迴歸問題,在數據分析的時候,也可以將此推廣到多個自變量的多元迴歸,具體的迴歸過程和意義請參考相關的統計學書籍。此外,在SPSS的結果輸出裏,還可以彙報R2,F檢驗值和T檢驗值。R2又稱爲方程的確定性係數(coefficient of determination),表示方程中變量X對Y的解釋程度。R2取值在0到1之間,越接近1,表明方程中X對Y的解釋能力越強。通常將R2乘以100%來表示迴歸方程解釋Y變化的百分比。F檢驗是通過方差分析表輸出的,通過顯著性水平(significant level)檢驗迴歸方程的線性關係是否顯著。一般來說,顯著性水平在0.05以上,均有意義。當F檢驗通過時,意味着方程中至少有一個迴歸係數是顯著的,但是並不一定所有的迴歸係數都是顯著的,這樣就需要通過T檢驗來驗證迴歸係數的顯著性。同樣地,T檢驗可以通過顯著性水平或查表來確定。在上面所示的例子中,各參數的意義如表8-2所示。
線性迴歸方程檢驗
指標
顯著性水平
意義
 
R2
0.89
 
“質量”解釋了89%的“用戶滿意度”的變化程度
F
276.82
0.001
迴歸方程的線性關係顯著
T
16.64
0.001
迴歸方程的係數顯著
示例 SIM手機用戶滿意度與相關變量線性迴歸分析
我們以SIM手機的用戶滿意度與相關變量的線性迴歸分析爲例,來進一步說明線性迴歸的應用。從實踐意義講上,手機的用戶滿意度應該與產品的質量、價格和形象有關,因此我們以“用戶滿意度”爲因變量,“質量”、“形象”和“價格”爲自變量,作線性迴歸分析。利用SPSS軟件的迴歸分析,得到迴歸方程如下:
用戶滿意度=0.008×形象+0.645×質量+0.221×價格
對於SIM手機來說,質量對其用戶滿意度的貢獻比較大,質量每提高1分,用戶滿意度將提高0.645分;其次是價格,用戶對價格的評價每提高1分,其滿意度將提高0.221分;而形象對產品用戶滿意度的貢獻相對較小,形象每提高1分,用戶滿意度僅提高0.008分。
方程各檢驗指標及含義如下:
指標
顯著性水平
意義
 
R2
0.89
 
“質量”和“形象”解釋了89%的“用戶滿意度”的變化程度
F
248.53
0.001
迴歸方程的線性關係顯著
T(形象)
0.00
1.000
“形象”變量對迴歸方程幾乎沒有貢獻
T(質量)
13.93
0.001
“質量”對迴歸方程有很大貢獻
T(價格)
5.00
0.001
“價格”對迴歸方程有很大貢獻

3 最小二乘

最小二乘法(又稱最小平方法)是一種數學優化技術。它通過最小化誤差的平方和尋找數據的最佳函數匹配。利用最小二乘法可以簡便地求得未知的數據,並使得這些求得的數據與實際數據之間誤差的平方和爲最小。最小二乘法還可用於曲線擬合。其他一些優化問題也可通過最小化能量或最大化熵用最小二乘法來表達。

在我們研究兩個變量(x,y)之間的相互關係時,通常可以得到一系列成對的數據(x1,y1.x2,y2... xm,ym);將這些數據描繪在x -y直角座標系中,若發現這些點在一條直線附近,可以令這條直線方程如(式1-1)。
其中:a0、a1 是任意實數
爲建立這直線方程就要確定a0和a1,應用《最小二乘法原理》,將實測值Yi與利用(式1-1)計算值(Yj=a0+a1X)的離差(Yi-Yj)的平方和
 最小爲“優化判據”。
令:φ =
 (式1-2)
把(式1-1)代入(式1-2)中得:
φ =
 (式1-3)
 最小時,可用函數 φ 對a0、a1求偏導數,令這兩個偏導數等於零。
∑2(a0 + a1*Xi - Yi)(式1-4)
∑2*Xi(a0 + a1*Xi - Yi)(式1-5)
亦即:
na0 + (∑Xi ) a1 = ∑Yi (式1-6)
(∑Xi ) a0 + (∑Xi^2 ) a1 = ∑(Xi*Yi) (式1-7)
得到的兩個關於a0、 a1爲未知數的兩個方程組,解這兩個方程組得出:
a0 = (∑Yi) / n - a1(∑Xi) / n (式1-8)
a1 = [n∑Xi Yi - (∑Xi ∑Yi)] / [n∑Xi2 - (∑Xi)2 )] (式1-9)
這時把a0、a1代入(式1-1)中, 此時的(式1-1)就是我們迴歸的元線性方程即:數學模型。
在迴歸過程中,迴歸的關聯式不可能全部通過每個迴歸數據點(x1,y1. x2,y2...xm,ym),爲了判斷關聯式的好壞,可藉助相關係數“R”,統計量“F”,剩餘標準偏差“S”進行判斷;“R”越趨近於 1 越好;“F”的絕對值越大越好;“S”越趨近於 0 越好。
R = [∑XiYi - m (∑Xi / m)(∑Yi / m)]/ SQR{[∑Xi2 - m (∑Xi / m)2][∑Yi2 - m (∑Yi / m)2]} (式1-10) *
在(式1-10)中,m爲樣本容量,即實驗次數;Xi、Yi分別爲任意一組實驗數據X、Y的數值。


發佈了148 篇原創文章 · 獲贊 42 · 訪問量 195萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章