機器學習之最小二乘法

原創

2018-08-27 19:54

最小二乘法：

我們以最簡單的一元線性模型來解釋最小二乘法。什麼是一元線性模型呢？監督學習中，如果預測的變量是離散的，我們稱其爲分類（如決策樹，支持向量機等），如果預測的變量是連續的，我們稱其爲迴歸。迴歸分析中，如果只包括一個自變量和一個因變量，且二者的關係可用一條直線近似表示，這種迴歸分析稱爲一元線性迴歸分析。如果迴歸分析中包括兩個或兩個以上的自變量，且因變量和自變量之間是線性關係，則稱爲多元線性迴歸分析。對於二維空間線性是一條直線；對於三維空間線性是一個平面，對於多維空間線性是一個超平面...

對於一元線性迴歸模型, 假設從總體中獲取了n組觀察值（X1，Y1），（X2，Y2）， …，（Xn，Yn）。對於平面中的這n個點，可以使用無數條曲線來擬合。要求樣本回歸函數儘可能好地擬合這組值。綜合起來看，這條直線處於樣本數據的中心位置最合理。選擇最佳擬合曲線的標準可以確定爲：使總的擬合誤差（即總殘差）達到最小。有以下三個標準可以選擇：

（1）用“殘差和最小”確定直線位置是一個途徑。但很快發現計算“殘差和”存在相互抵消的問題。
（2）用“殘差絕對值和最小”確定直線位置也是一個途徑。但絕對值的計算比較麻煩。
（3）最小二乘法的原則是以“殘差平方和最小”確定直線位置。用最小二乘法除了計算比較方便外，得到的估計量還具有優良特性。這種方法對異常值非常敏感。

　最常用的是普通最小二乘法（ Ordinary Least Square，OLS）：所選擇的迴歸模型應該使所有觀察值的殘差平方和達到最小。（Q爲殘差平方和）- 即採用平方損失函數。

　樣本回歸模型：

其中e_i爲樣本（X_i,Y_i）的誤差

平方損失函數：

則通過Q最小確定這條直線，即確定，以爲變量，把它們看作是Q的函數，就變成了一個求極值的問題，可以通過求導數得到。求Q對兩個待估參數的偏導數：

根據數學知識我們知道，函數的極值點爲偏導爲0的點。

解得：

這就是最小二乘法的解法，就是求得平方損失函數的極值點。

最小二乘法與梯度下降法：

最小二乘法跟梯度下降法都是通過求導來求損失函數的最小值，那它們有什麼區別呢。

相同

　　1.本質相同：兩種方法都是在給定已知數據（independent & dependent variables）的前提下對dependent variables算出出一個一般性的估值函數。然後對給定新數據的dependent variables進行估算。
　　2.目標相同：都是在已知數據的框架內，使得估算值與實際值的總平方差儘量更小（事實上未必一定要使用平方），估算值與實際值的總平方差的公式爲：

$\Delta =\frac{1}{2} \sum_{i=1}^{m}{(f_{\beta }(\bar{x_{i}} )-y_{i})^{2} }$

其中 $\bar{x_{i} }$ 爲第i組數據的independent variable， $y_{i}$ 爲第i組數據的dependent variable， $\beta$ 爲係數向量。

不同
　　1.實現方法和結果不同：最小二乘法是直接對 $\Delta$ 求導找出全局最小，是非迭代法。而梯度下降法是一種迭代法，先給定一個 $\beta$ ，然後向 $\Delta$ 下降最快的方向調整 $\beta$ ，在若干次迭代之後找到局部最小。梯度下降法的缺點是到最小點的時候收斂速度變慢，並且對初始點的選擇極爲敏感，其改進大多是在這兩方面下功夫。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

機器學習之最小二乘法

TensorFlow簡單學習1

mahout之canopy聚類算法

機器學習之最小二乘法

PCA 和 SVD

閱讀資料

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結