轉自 雲海唯C的專欄
地址:http://blog.csdn.net/yunhaic/article/details/4317613#comments
一元線性迴歸分析是處理兩個變量之間關係的最簡單模型,它所研究的對象是兩個變量之間的線性相關關係。通過對這個模型的討論,我們不僅可以掌握有關一元線性迴歸的知識,而且可以從中瞭解迴歸分析方法的基本思想、方法和應用。
一、問題的提出
例2-1-1 爲了研究氮含量對鐵合金溶液初生奧氏體析出溫度的影響,測定了不同氮含量時鐵合金溶液初生奧氏體析出溫度,得到表2-1-1給出的5組數據。
表2-1-1 氮含量與灰鑄鐵初生奧氏體析出溫度測試數據
如果把氮含量作爲橫座標,把初生奧氏體析出溫度作爲縱座標,將這些數據標在平面直角座標上,則得圖2-1-1,這個圖稱爲散點圖。
從圖2-1-1可以看出,數據點基本落在一條直線附近。這告訴我們,變量X與Y的關係大致可看作是線性關係,即它們之間的相互關係可以用線性關係來描述。但是由於並非所有的數據點完全落在一條直線上,因此X與Y的關係並沒有確切到可以唯一地由一個X值確定一個Y值的程度。其它因素,諸如其它微量元素的含量以及測試誤差等都會影響Y的測試結果。如果我們要研究X與Y的關係,可以作線性擬合
(2-1-1)
我們稱(2-1-1)式爲迴歸方程,a與b是待定常數,稱爲迴歸係數。從理論上講,(2-1-1)式有無窮多組解,迴歸分析的任務是求出其最佳的線性擬合。
二、最小二乘法原理
如果把用迴歸方程 計算得到的 i值(i=1,2,…n)稱爲迴歸值,那麼實際測量值yi與迴歸值 i之間存在着偏差,我們把這種偏差稱爲殘差,記爲ei(i=1,2,3,…,n)。這樣,我們就可以用殘差平方和來度量測量值與迴歸直線的接近或偏差程度。殘差平方和定義爲:
(2-1-2)
所謂最小二乘法,就是選擇a和b使Q(a,b)最小,即用最小二乘法得到的迴歸直線 是在所有直線中與測量值殘差平方和Q最小的一條。由(2-1-2)式可知Q是關於a,b的二次函數,所以它的最小值總是存在的。下面討論的a和b的求法。
三、正規方程組
根據微分中求極值的方法可知,Q(a,b)取得最小值應滿足
(2-1-3)
由(2-1-2)式,並考慮上述條件,則
(2-1-4)
(2-1-4)式稱爲正規方程組。解這一方程組可得
(2-1-5)
其中
(2-1-6)
(2-1-7)
式中,Lxy稱爲xy的協方差之和,Lxx稱爲x的平方差之和。
如果改寫(2-1-1)式,可得
(2-1-8)
或
(2-1-9)
由此可見,迴歸直線是通過點 的,即通過由所有實驗測量值的平均值組成的點。從力學觀點看, 即是N個散點 的重心位置。
現在我們來建立關於例1的迴歸關係式。將表2-1-1的結果代入(2-1-5)式至(2-1-7)式,得出
a=1231.65
b=-2236.63
因此,在例1中灰鑄鐵初生奧氏體析出溫度(y)與氮含量(x)的迴歸關係式爲
y=1231.65-2236.63x
四、一元線性迴歸的統計學原理
如果X和Y都是相關的隨機變量,在確定x的條件下,對應的y值並不確定,而是形成一個分佈。當X取確定的值時,Y的數學期望值也就確定了,因此Y的數學期望是x的函數,即
E(Y|X=x)=f(x) (2-1-10)
這裏方程f(x)稱爲Y對X的迴歸方程。如果迴歸方程是線性的,則
E(Y|X=x)=α+βx (2-1-11)
或
Y=α+βx+ε (2-1-12)
其中
ε―隨機誤差
從樣本中我們只能得到關於特徵數的估計,並不能精確地求出特徵數。因此只能用f(x)的估計式 來取代(2-1-11)式,用參數a和b分別作爲α和β的估計量。那麼,這兩個估計量是否能夠滿足要求呢?
1. 無偏性
把(x,y)的n組觀測值作爲一個樣本,由樣本只能得到總體參數α和β的估計值。可以證明,當滿足下列條件:
(1)(xi,yi)是n個相互獨立的觀測值
(2)εi是服從 分佈的隨機變量
則由最小二乘法得到的a與b分別是總體參數α和β的無偏估計,即
E(a)= α
E(b)=β
由此可推知
E( )=E(y)
即y是迴歸值 在某點的數學期望值。
2. a和b的方差
可以證明,當n組觀測值(xi,yi)相互獨立,並且D(yi)=σ2,時,a和b的方差爲
(2-1-13)
(2-1-14)
以上兩式表明,a和b的方差均與xi的變動有關,xi分佈越寬,則a和b的方差越小。另外a的方差還與觀測點的數量有關,數據越多,a的方差越小。因此,爲提高估計量的準確性,xi的分佈應儘量寬,觀測點數量應儘量多。