最小二乘法與投影

作者:阿狸
鏈接:https://www.zhihu.com/question/37031188/answer/111336809
來源:知乎
著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。

最小二乘法(Least Squares Method,簡記爲LSE)是一個比較古老的方法,源於天文學和測地學上的應用需要。在早期數理統計方法的發展中,這兩門科學起了很大的作用。丹麥統計學家霍爾把它們稱爲“數理統計學的母親”。此後近三百年來,它廣泛應用於科學實驗與工程技術中。美國統計史學家斯蒂格勒( S. M. Stigler)指出, 最小二乘方法是19世紀數理統計學的壓倒一切的主題。1815年時,這方法已成爲法國、意大利和普魯士在天文和測地學中的標準工具,到1825年時已在英國普遍使用。


追溯到1801年,意大利天文學家朱賽普·皮亞齊發現了第一顆小行星穀神星。經過40天的跟蹤觀測後,由於穀神星運行至太陽背後,使得皮亞齊失去了穀神星的位置。隨後全世界的科學家利用皮亞齊的觀測數據開始尋找穀神星,但是根據大多數人計算的結果來尋找穀神星都沒有結果。時年24歲的高斯也計算了穀神星的軌道。奧地利天文學家海因裏希·奧爾伯斯根據高斯計算出來的軌道重新發現了穀神星。高斯於其1809年的著作《關於繞日行星運動的理論》中。在此書中聲稱他自1799年以來就使用最小二乘方法,由此爆發了一場與勒讓德的優先權之爭。


近代學者經過對原始文獻的研究,認爲兩人可能是獨立發明了這個方法,但首先見於書面形式的,以勒讓德爲早。然而,現今教科書和著作中,多把這個發明權歸功於高斯。其原因,除了高斯有更大的名氣外,主要可能是因爲其正態誤差理論對這個方法的重要意義。勒讓德在其著作中,對最小二乘方法的優點有所闡述。然而,缺少誤差分析。我們不知道,使用這個方法引起的誤差如何,就需建立一種誤差分析理論。高斯於1823年在誤差e1 ,… , en獨立同分布的假定下,證明了最小二乘方法的一個最優性質: 在所有無偏的線性估計類中,最小二乘方法是其中方差最小的!在德國10馬克的鈔票上有高斯像,並配了一條正態曲線。在高斯衆多偉大的數學成就中挑選了這一條,亦可見這一成就對世界文明的影響。

<img src="https://pic2.zhimg.com/50/52032e4a55b4fc1aaf61020d05ee2278_hd.jpg" data-rawwidth="356" data-rawheight="168" class="content_image" width="356">


現行的最小二乘法是勒讓德( A. M. Legendre)於1805年在其著作《計算慧星軌道的新方法》中提出的。它的主要思想就是選擇未知參數,使得理論值與觀測值之差的平方和達到最小:

H=\sum_{0}^{m}{(y-y_{i})^2}

我們現在看來會覺得這個方法似乎平淡無奇,甚至是理所當然的。這正說明了創造性思維之可貴和不易。從一些數學大家未能在這個問題上有所突破,可以看出當時這個問題之困難。歐拉、拉普拉斯在許多很困難的數學問題上有偉大的建樹,但在這個問題上未能成功。


在高斯發表其1809年著作之前,約在1780年左右,拉普拉斯已發現了概率論中的“中心極限定理”。根據這個定理,大量獨立的隨機變量之和,若每個變量在和中起的作用都比較小,則和的分佈必接近於正態。測量誤差正具有這種性質。一般地說,隨機(而非系統)的測量誤差,是出自大量不顯著的來源的疊加。因此,中心極限定理給誤差的正態性提供了一種合理的理論解釋。這一點對高斯理論的圓滿化很有意義,因爲高斯原來的假定(平均數天然合理)總難免給人一種不自然的感覺。


耐人尋味的是,無論是中心極限定理的發明者拉普拉斯,還是早就瞭解這一結果的高斯,都沒有從這個結果的啓示中去考察誤差分佈問題。對前者而言,可能是出於思維定勢的束縛,這對拉普拉斯來說可算不幸,他因此失掉了把這個重要分佈冠以自己名字的機會(正態分佈這個形式最早是狄莫弗( De Moiv re) 1733年在研究二項概率的近似計算時得出的。以後也有其他學者使用過,但都沒有被冠以他們的名字。高斯之所以獲得這一殊榮,無疑是因爲他把正態分佈與誤差理論聯繫了起來) 。


可以說,沒有高斯的正態誤差理論配合, 最小二乘方法的意義和重要性可能還不到其現今所具有的十分之一。最小二乘方法方法與高斯誤差理論的結合,是數理統計史上最重大的成就之一,其影響直到今日也尚未過時!由於本文是主要介紹最小二乘法與矩陣投影之間的關係,對於最小二乘和概率之間的關係,請參看靳志輝的《正態分佈的前世今生》。


那麼,投影矩陣與最小二乘二者有什麼必然的聯繫麼,當我開始寫這篇文章的時候我也這樣問自己。先說說投影吧,這個想必大家都知道,高中的知識了。一個向量在另一個向量上的投影,實際上就是尋找在上離最近的點。

<img src="https://pic3.zhimg.com/50/b7b0e8db78f11cd23fcef9e60426e721_hd.jpg" data-rawwidth="201" data-rawheight="179" class="content_image" width="201">


現在我們假設投影點是向量上的一點p,可以規定p=xa(x是某個數)。定義e=b-p,稱e 爲誤差。因爲e 與p 也就是a 垂直,所以有a^{T}(b-ax)=0,展開化簡得到:

x=\frac{a^{T}}{a^{T}a} \cdot bp=ax=\frac{aa^{T}}{a^{T}a} \cdot b

我們發現:如果改變b,那麼p相對應改變,然而改變a,p無變化。接下來,我們可以考慮更高維度的投影,三維空間的投影是怎麼樣的呢,我們可以想象一個三維空間內的向量在該空間內的一個平面上的投影:

<img src="https://pic3.zhimg.com/50/fd9fcbe61b82fed0e1edbaff58ff7191_hd.jpg" data-rawwidth="242" data-rawheight="243" class="content_image" width="242">


我們假設這個平面的基(basis)是a1, a2。那麼矩陣A 的列空間就是該平面。假設一個不在該平面上的向量b 在該平面上的投影是p 。我們的任務就是找到合適的x,使得p=Ax 。這裏有一個關鍵的地方:e 與該平面垂直,所以A^{T}(b-Ax)=0。我們把上邊式子展開,得到

x=(A^{T}A)^{-1}A^{T}\cdot b ,p=Ax=A(A^{T}A)^{-1}A^{T}\cdot b

有了上面的背景知識,我們可以正式進入主題了,投影矩陣(projection matrix):

P=A(A^{T}A)^{-1}A^{T}

這裏我們最需要關注的是投影矩陣的兩個性質:

1)P^{T}= P;

2)P^{2}= P;

對於第一個,很容易理解,因爲P本身就是個對稱陣。第二個,直觀的理解就是投影到a上後再投影一次,顯然投影並沒有改變,也就是二次投影還是其本身。


這個投影到底有什麼用呢?從上面的分析中我們可以看出:投影矩陣P可以吧向量b投影成向量p!從線性代數的角度來說,Ax=b並不一定總有解,這在實際情況中會經常遇到(m >
n)。所以我們就把b投影到向量p上,因爲p在a1,a2的平面內,所以Ax =p是可以求解的。


好了,在此我們先暫別“投影”。下面,開始說一下最小二乘的故事吧:在實際應用中,線性迴歸是經常用到的,我們可以在一張散列點圖中作一條直線(暫時用直線)來近似表述這些散列點的關係。比如:


<img src="https://pic7.zhimg.com/50/v2-4c65ed9cfa6aea8a65e98fda23ae27f3_hd.jpg" data-rawwidth="583" data-rawheight="536" class="origin_image zh-lightbox-thumb" width="583" data-original="https://pic7.zhimg.com/v2-4c65ed9cfa6aea8a65e98fda23ae27f3_r.jpg">


設變量y 與t 成線性關係,即.現在已知m 個實驗點ai和bi ,求兩個未知參數C,D 。將代入得矛盾方程組

<img src="https://pic1.zhimg.com/50/v2-520d07eb50b692d92b76f89f6bdb9a3a_hd.jpg" data-rawwidth="133" data-rawheight="129" class="content_image" width="133">

我們令


<img src="https://pic1.zhimg.com/50/v2-d582602583a99ac0a9bb9ebc89383287_hd.jpg" data-rawwidth="200" data-rawheight="140" class="content_image" width="200">


則可寫成以下形式:


<img src="https://pic1.zhimg.com/50/v2-f084b17426c3cfeee3488ff2c376264a_hd.jpg" data-rawwidth="123" data-rawheight="137" class="content_image" width="123">


從線性代數的角度來看,就是A的列向量的線性組合無法充滿整個列空間,也就是說Ax=b這個方程根本沒有解。從圖形上也很好理解:根本沒有一條直線同時經過所有藍色的點!所以爲了選取最合適的x,讓該等式"儘量成立",引入殘差平方和函數H:

min(H)=min(||e||^{2})=min(||b-Ax||^{2})

這也就是最小二乘法的思想。我們知道,當x取最優值的時候,Ax恰好對應圖中線上橙色的點,而b則對應圖中藍色的點,e的值則應紅色的線長。


看到這裏你有沒有和之前投影的那部分知識聯繫在一起呢?最小二乘的思想是想如何選取參數x使得H最小。而從向量投影的角度來看這個問題,H就是向量e長度的平方,如何才能使e的長度最小呢?b和a1,a2都是固定的,當然是e垂直a1,a2平面的時候長度最小!換句話說:最小二乘法的解與矩陣投影時對變量求解的目標是一致的!

於是,根據矩陣投影的知識,我們可以直接寫出最小二乘法問題的解

<img src="https://pic4.zhimg.com/50/v2-c92cd804a0dbdaeffdb06f65e7fda39f_hd.jpg" data-rawwidth="189" data-rawheight="67" class="content_image" width="189">

其中 A 稱爲結構矩陣, b 稱爲數據矩陣, A^{T}A 稱爲信息矩陣, A^{T}b 稱爲常數矩陣。而最小
二乘的求解實質上就是 Ax=b 沒有解,我們就把 b 投影到向量 p 上,求解 Ax =p.

爲了定量地給出與實驗數據之間線性關係的符合程度,可以用相關係數來衡量.它定義爲

<img src="https://pic3.zhimg.com/50/75f5dbcf1a343110936cf1bfb1332f95_hd.jpg" data-rawwidth="358" data-rawheight="105" class="content_image" width="358">

r也就是我們之前介紹的向量夾角。r 值越接近1, y與t 的線性關係越好.爲正時,直線斜率爲正,稱爲正相關;r 爲負時,直線斜率爲負,稱爲負相關.接近於0時,測量數據點分散或之間爲非線性.不論測量數據好壞都能求出和,所以我們必須有一種判斷測量數據好壞的方法,用來判斷什麼樣的測量數據不宜擬合,判斷的方法是時,測量數據是非線性的. r0稱爲相關係數的起碼值,與測量次數n 有關。


最小二乘講到這裏似乎已經說完了,但是有一個問題,那就是我們所利用的投影矩陣P這裏我們假定A^{T}A是可逆的,這種假定合理嗎?Strang在最後給我們作了解答:

If A has independent columns, then A'A is invertible

寫到這裏,我想有必要總結一下,爲什麼最小二乘和投影矩陣要扯到一起,它們有什麼聯繫:最小二乘是用於數據擬合的一個很霸氣的方法,這個擬合的過程我們稱之爲線性迴歸。如果數據點不存在離羣點(outliers),那麼該方法總是會顯示其簡單粗暴的一面。我們可以把最小二乘的過程用矩陣的形式描述出來,然而,精妙之處就在於,這與我們的投影矩陣的故事不謀而合,所以,我們又可以藉助於投影矩陣的公式,也就是A^{T}Ax = A^{T}b來加以解決。


最小二乘法是從誤差擬合角度對迴歸模型進行參數估計或系統辨識,並在參數估計、系統辨識以及預測、預報等衆多領域中得到極爲廣泛的應用。在數據擬合領域,最小二乘法及其各種變形的擬合方法包括:一元線性最小二乘法擬合、多元線性擬合、多項式擬合、非線性擬合。最小二乘法能將從實驗中得出的一大堆看上去雜亂無章的數據中找出一定規律,擬合成一條曲線來反映所給數據點總趨勢,以消除其局部波動。它爲科研工作者提供了一種非常方便實效的數據處理方法。隨着現代電子計算機的普及與發展,這個佔老的方法更加顯示出其強大的生命力。


想了解更多有關矩陣的內容,可以搜索《神奇的矩陣》。


參考文獻

1.陳希孺院士,《最小二乘法的歷史回顧與現狀》

2.靳志輝,《正態分佈的前世今生》

3.小班得瑞博客,投影矩陣與最小二乘

4.《最小二乘法的應用研究

發佈了74 篇原創文章 · 獲贊 58 · 訪問量 17萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章