最小二乘法的再認識

一、最小二乘法與最小一乘法

1.什麼時候用最小二乘法

在研究兩個變量之間的關係時,可以用迴歸分析的方法進行分析。當確定了描述兩個變量之間的迴歸模型後,就可以使用最小二乘法估計模型中的參數,進而建立經驗方程.

例如,在現實世界中,這樣的情形大量存在着:兩個變量XY(比如身高和體重)彼此有一些依賴關係,由X可以部分地決定Y的值,但這種關係又是不確定的.人們常常藉助統計學中的迴歸模型來尋找兩個變量之間的關係,而模型的建立當然是依據觀測數據.首先通過試驗或調查獲得xY的一組對應關係(x1Y1)(x2Y2),…,(xnYn),然後回答下列5個問題:

1. 這兩個變量是否有關係?(畫出散點圖,作直觀判斷)

2. 這些關係是否可以近似用函數模型來描述?(利用散點圖、已積累的函數曲線形狀的知識和試驗數據,選擇適當的迴歸模型,如一元線性模型y=b0b1x,二次函數模型y=b0b1xb2x2

3. 建立迴歸模型.

4. 對模型中的參數進行估計,最小二乘法是這些參數的一種常用估計方法.

5. 討論模型的擬合效果.

在上述第3步中,設所建立的迴歸模型的一般形式是,其中Y稱爲響應變量,x稱爲解釋變量或協變量;是一個由參數決定的迴歸函數;是一個不可觀測的隨機誤差.爲了通過試驗數據來估計參數的值,可以採用許多統計方法,而最小二乘法是目前最常用、最基本的.由的估計值決定的方程稱爲經驗迴歸方程或經驗方程.

教科書中涉及的迴歸模型是最簡單的一元線性模型

Y=b0+b1x+

此時模型的擬合效果可以通過Pearson相關係數

來描述。事實上,在線性迴歸模型中可以證明相關指數等於相關係數的平方.

2.什麼是最小二乘法思想

簡單地說,最小二乘的思想就是要使得觀測點和估計點的距離的平方和達到最小.這裏的“二乘”指的是用平方來度量觀測點與估計點的遠近(在古漢語中“平方”稱爲“二乘”),“最小”指的是參數的估計值要保證各個觀測點與估計點的距離的平方和達到最小.

例如,對於迴歸模型

,…,爲收集到的觀測數據,則應該用來估計,這裏的估計值。這樣點的估計就是,它們之間距離的平方就是

進而最小二乘估計量就是使得

                       (*)

達到最小值的參數.特別當各個和相應的估計值相等,即時,最小二乘估計量就是使得

                               (**)

達到最小值的參數.

    如果我們能夠在固定解釋變量值的前提下觀測預報變量,就認爲解釋變量的觀測值和估計值相等,從而可以通過(**)式求最小二乘估計.在實際應用中,人們常忽略“各個和相應的估計值相等”的條件,而把(**)式的最小值點稱爲參數的最小二乘估計量,其原因有二:其一是不知道最小二乘方法的原理;或是找不到估計量的合理數學表達式,也就無法通過(*)式求最小二乘估計量,只好用(**)式的最小值點作爲參數的估計.

在教科書中,已知(x1y1)(x2y2),…,(xnyn)是變量XY的一組觀測數據,要估計的是迴歸直線方程y=b0b1x中參數b0b1的值。所以這時目標函數爲

是這時的最小二乘法就是尋求b0b1的值,使在各點處的偏差yi(b0b1xi)i=12,…,n)的平方和達到最小.在這種情形中,有意思的事情是:估計得到的直線=b0b1x一定經過觀測數據點的中心()).

進一步,若觀測數據全部落在某一直線上,則這個直線方程的截距和斜率必是模型參數的最小二乘估計量.因此最小二乘法還爲我們提供了一種求解方程組的方法.

關於最小二乘估計的計算,涉及更多的數學知識,這裏不想詳述.其一般的過程是用目標函數對各bi求偏導數,並令其等於0,得到一個線性方程組.高斯當年將其命名爲正則方程,並創設了解線性方程組的消元法——高斯消元法.

從計算的角度看,最小二乘法與插值法類似,都是處理數據的算法.但從創設的思想看,二者卻有本質的不同.前者尋求一條曲線,使其與觀測數據“最接近”,目的是代表觀測數據的趨勢;後者則是使曲線嚴格通過給定的觀測數據,其目的是通過來自函數模型的數據來近似刻畫該函數.在觀測數據帶有測量誤差的情況下,就會使得這些觀測數據偏離函數曲線,結果使得與觀測數據保持一致的插值法不如最小二乘法得到的曲線更符合客觀實際.

最小二乘法能在統計學中得到應用,也是因爲測量誤差的存在。事實上,在高斯等人創立了測量誤差理論,對最小二乘法進行了誤差分析之後,這種方法纔在統計界獲得了合法地位,正式成爲了一種統計方法.

3.關於最小一乘法

將上述最小二乘法的一般形式改爲

目標函數=

就是最小一乘法。最小一乘法誕生在1760年,比最小二乘法還要早40多年.但是由於當時無法解決的計算問題,最小一乘法在此後的百餘年中都沒有獲得長足的發展.直到1950年,發現了用線性規劃求解的方法以及電子計算機的使用,才解決了計算難題.如今,統計理論的發展使最小一乘法在某些應用部門(如數量經濟學)顯示了優良的性質,正在逐步受到應用界的重視.

    有意思的是,有人做過這樣的試驗:準備大量的散點圖,讓一些人各自用目測的方法畫直線.結果表明,大多數人目測的結果更接近於最小一乘法而不是最小二乘法獲得的直線。

二、最小二乘法的發現史及其在統計學中的地位

發現最小二乘法的動因是天文學和測地學中處理數據的需要.陳希孺先生所著《數理統計學簡史》中記載了這樣一段歷史.在18世紀,天文學和測地學中的一些數據分析問題可以描述如下:有(m1)個可以測量的量x0x1,…,xm,和m個未知的參數β1β2βm.按照某種理論,它們之間應有線性關係

                                          

但是由於實際工作中對x0x1,…,xm的測量存在誤差,而且⑴式只是理論上的近似而非嚴格成立.也就是說,⑴式左邊的表達式實際上不等於0,其真實值與測量有關,可視爲一種誤差.若進行了n次測量,在實際問題中,n總是大於甚至是遠遠大於m,目的是多提供一些信息,以便對參數β1β2,…,βm作出較精確的估計.設在第i次測量中,x0x1,…,xm分別取值x0ix1i,…,xmi,則按照⑴式,應有

                i=12,…,n)。             

若⑵式嚴格成立,則只要從上述n個方程中任意挑出m個就可以解出β1β2,…,βm的值.但⑵式並非嚴格成立,於是需要設計合適的算法來估計參數的值.

    1750年,天文學家梅耶發表了一種方法.他在研究海上航行船隻的定位問題時,得到了一個包含3個未知參數的形如⑴式的關係式以及27組觀測數據.梅耶把這27個方程分成3組,然後把每組中的9個方程相加,共得到3個方程,這樣可以解出3個未知參數.至於分組的方法,梅耶以其中一個係數爲準,按各方程中此係數的大小分組:最大的9個,最小的9個和剩下的9個各成一組.在最小二乘法發現之前,這個方法曾經比較流行,並被冠以梅耶的名字.值得一提的是,梅耶還估計了這種方法的誤差,並試圖對誤差的界限作一個估計.雖然今天看來梅耶的做法有一些錯誤,但他在那麼早的階段就做出這種努力,是難能可貴的.

    1787年,拉普拉斯在研究天文問題時引出了一個形如⑴式的m4n24的方程組.他的求解方法是,先把24個方程編號,然後按下列方式得到需要求解的4個方程.

    方程124個方程的和;

方程2:前12個方程之和-後12個方程之和;

方程3:編號爲3410111718的方程之和-編號爲171420的方程之和;

方程4:編號爲28915162122的方程之和-編號爲56121319的方程之和。

拉普拉斯沒有解釋如此組合的原因,這使得他的方法無法應用於類似的問題.

對解決這類問題做過嘗試的還有大數學家歐拉,但他的做法顯得雜亂無章,缺乏基本的合理性.看來這個問題的解決還需要一點新的思路.1805年,法國數學家勒讓德採取了一個新的角度來考慮這個問題.他不再關心如何找出個數等於未知數個數的方程組,而是考慮如何使誤差在整體上達到平衡,於是他採取使

的原則去求解β1β2βm.這一原則使誤差不過分集中在幾個方程上,而是比較均勻地分佈於各方程,從而有助於揭示系統的更接近真實的狀態.而勒讓德之前的學者的做法對於誤差在各方程之間的分佈的影響是不清楚的.

後來,最小二乘法逐步滲入到統計數據分析領域,對統計學的發展產生了重大影響.統計史家對此評價很高,有的認爲最小二乘法之於統計學,猶如微積分之於數學.有的學者稱最小二乘法是19世紀統計學的“中心主題”.最小二乘法之所以能獲得如此的顯赫地位,主要得益於它與線性模型的聯繫.勒讓德創設最小二乘法是爲了解決形如⑴式的線性表達式(如今已發展爲線性模型)的,由此導出的也是一個線性的方程組,這使得最小二乘法具有計算簡便的特點.但更加重要的是,“線性”的特點使最小二乘法在誤差分析方面較之其他方法具有不可替代的優勢.在1809年高斯對最小二乘估計進行的誤差分析中發現,在線性模型的所有無偏估計類中,最小二乘估計是唯一的方差最小的無偏估計;進入20世紀後,哥色特、費歇爾等人還發現,在正態誤差的假定下,最小二乘估計有較完善的小樣本理論,使基於它的統計推斷易於操作且有關的概率計算不難進行.與此同時,對最小二乘法誤差分析的研究也促進了線性模型理論的發展.如今,線性模型已經成爲理論結果最豐富、應用最廣泛的一類迴歸模型

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章