個人學習筆記(歡迎交流指正):
最小二乘法
1.1 最小二乘法簡介
百度百科:最小二乘法(又稱最小平方法)是一種數學優化技術。它通過最小化誤差的平方和尋找數據的最佳函數匹配。利用最小二乘法可以簡便地求得未知的數據,並使得這些求得的數據與實際數據之間誤差的平方和爲最小。
下面以最簡單的一元線性迴歸模型來解釋最小二乘法的原理。
1.2 一元線性迴歸模型
(1)一元線性迴歸模型一般形式:
殘差形式爲:
其中, 爲樣本()的誤差。
(2)平方損失函數:
在訓練集 上, 模型平方損失函數爲:
1.3 最小二乘法求解
爲了使求出的迴歸模型能夠儘可能好的擬合訓練樣本,這條直線處於樣本數據的中心位置最合理。選擇最佳擬合曲線的標準可以確定爲:使總的擬合誤差(即總殘差)達到最小。有以下三個標準可以選擇:
(1)用“殘差和最小”確定直線位置是一個途徑。但很快發現計算“殘差和”存在相互抵消的問題(有正有負)。
(2)用“殘差絕對值和最小”確定直線位置也是一個途徑。但絕對值的計算比較麻煩(還是要判斷正負)。
(3)最小二乘法的原則是以“殘差平方和最小”確定直線位置。用最小二乘法除了計算比較方便外,得到的估計量還具有優良特性,這種方法對異常值非常敏感。(利用平方誤差函數作爲最優函數求解其實源自極大似然估計,有興趣可以自己查一下相關數學背景)
以普通最小二乘法爲例,使最小來確定直線,可以看做是 和 的函數,問題轉化爲極值問題:
求對 和 的偏導數:
求得:
1.4 最小二乘法矩陣形式推廣