最小二乘法總結

最小二乘法是用來做函數擬合或者求函數極值的方法,在機器學習，尤其是迴歸模型中，經常可以看到最小二乘法的身影，這裏對最小二乘法做一個小結。

1.最小二乘法的原理與要解決的問題

最小二乘法，原理的一般形式很簡單，形式如下式：

目標函數 = Σ（觀測值-理論值）²

觀測值就是我們的多組樣本，理論值就是我們的假設擬合函數。目標函數也就是在機器學習中常說的損失函數，我們的目標是得到使目標函數最小化時候的擬合函數的模型。舉一個最簡單的線性迴歸的例子，比如我們有m個只有一個特徵的樣本：

(x⁽¹⁾,y⁽¹⁾),(x⁽²⁾,y⁽²⁾) … (x^(m),y^(m))

樣本採用下面的擬合函數：

h_θ(x)=θ₀+θ₁x

這樣我們的樣本有一個特徵x，對應的擬合函數有兩個參數θ₀和θ₁需要求出。

我們的目標函數爲：

J(θ₀,θ₁)=∑_I=1^m (y⁽ⁱ⁾−h_θ(x⁽ⁱ⁾)²=∑_I=1^m(y⁽ⁱ⁾−θ₀−θ₁x⁽ⁱ⁾)²
用最小二乘法做什麼呢，使J(θ0,θ1)最小，求出使J(θ₀,θ₁)最小時的θ₀和θ₁,這樣擬合函數就得出了。

那麼，最小二乘法怎麼才能使J(θ₀,θ₁)最小呢？

2.最小二乘法的代數法解法

上面提到要使J(θ0,θ1)最小，方法就是對θ0和θ1分別來求偏導數，令偏導數爲0，得到一個關於θ0和θ1的二元方程組。求解這個二元方程組，就可以得到θ0和θ1的值。下面我們具體看看過程。

J(θ₀,θ₁)對θ₀求導，得到如下方程：

∑_I=1^m(y^(I)−θ₀−θ₁x⁽ⁱ⁾)=0 ①

J(θ₀,θ₁)對θ₁求導，得到如下方程：

∑_I=1^m(y⁽ⁱ⁾−θ₀−θ₁x⁽ⁱ⁾)x⁽ⁱ⁾=0 　　　 ②

①和②組成一個二元一次方程組，容易求出θ₀和θ₁的值：

θ₀=∑_I=1^m(x⁽ⁱ⁾)²∑_I=1^my⁽ⁱ⁾−∑_I=1^mx⁽ⁱ⁾∑_I=1^mx^(I)y^(I)/m∑_I=1^m(x⁽ⁱ⁾)²−(∑_I=1^mx⁽ⁱ⁾)²

θ₁=m∑_I=1^mx⁽ⁱ⁾y⁽ⁱ⁾−∑_I=1^mx⁽ⁱ⁾∑_I=1^my⁽ⁱ⁾/m∑_I=1^m(x⁽ⁱ⁾)²−(∑_I=1^mx⁽ⁱ⁾)²

這個方法很容易推廣到多個樣本特徵的線性擬合。擬合函數表示爲 h_θ(x₁,x₂,…x_n)=θ₀+θ₁x₁+…+θ_nx_n, 其中θ_i(i = 0,1,2… n)爲模型參數，x_i (i = 0,1,2… n)爲每個樣本的n個特徵值。這個表示可以簡化，我們增加一個特徵x₀=1 ，這樣擬合函數表示爲：

h_θ(x₀,x₁,…x_n)=∑_I=0ⁿθ_Ix_I

損失函數表示爲：

J(θ0,θ1…,θn)=∑j=1m(hθ(x(j)0),x(j)1,…x(j)n))−y(j)))2=∑j=1m(∑i=0nθix(j)i−y(j))2

利用損失函數分別對θi(i=0,1,…n)求導,並令導數爲0可得：

∑_j=0^m(∑_I=0ⁿ(θ_Ix^(j)_I−y^(j))x^(j)_I= 0 (i=0,1,…n)

這樣我們得到一個N+1元一次方程組，這個方程組有N+1個方程，求解這個方程，就可以得到所有的N+1個未知的θ

這個方法很容易推廣到多個樣本特徵的非線性擬合。原理和上面的一樣，都是用損失函數對各個參數求導取0，然後求解方程組得到參數值。這裏就不累述了。

3.最小二乘法的矩陣法解法

**
矩陣法比代數法要簡潔，且矩陣運算可以取代循環，所以現在很多書和機器學習庫都是用的矩陣法來做最小二乘法。

這裏用上面的多元線性迴歸例子來描述矩陣法解法。

假設函數h_θ(x₁,x₂,…x_n)=θ₀+θ₁x₁+…+θ_n−1x_n−1的矩陣表達方式爲：

h_θ(x)=X_θ

其中，假設函數hθ(X)爲mx1的向量,θ爲nx1的向量，裏面有n個代數法的模型參數。X爲mxn維的矩陣。m代表樣本的個數，n代表樣本的特徵數。

損失函數定義爲J(θ)=1/2 (X_θ−Y)^T(X_θ−Y)

其中,Y是樣本的輸出向量，維度爲m x 1,1/2在這主要是爲了求導後係數爲1，方便計算。

根據最小二乘法的原理，我們要對這個損失函數對θ向量求導取0。結果如下式：

∂J(θ)／∂θ=X^T(X_θ−Y)=0這裏面用到了矩陣求導鏈式法則，和兩個矩陣求導的公式。

公式1：∂(XXT)／∂X=2X
公式2：∂(X_θ)／∂θ=X^T
　　　　對上述求導等式整理後可得：

X^TX_θ=X^TY

兩邊同時左乘(X^TX)⁻¹,可得：

θ=(X^TX)⁻¹X^TY

這樣我們就一下子求出了θ向量表達式的公式，免去了代數法一個個去求導的麻煩。只要給了數據,我們就可以用θ=(X^TX)⁻¹X^TY
算出θ.

4.最小二乘法的侷限性和適用場景

從上面可以看出，最小二乘法適用簡潔高效，比梯度下降這樣的迭代法似乎方便很多。但是這裏我們就聊聊最小二乘法的侷限性。

首先，最小二乘法需要計算X^TX的逆矩陣，有可能它的逆矩陣不存在，這樣就沒有辦法直接用最小二乘法了，此時梯度下降法仍然可以使用。當然，我們可以通過對樣本數據進行整理，去掉冗餘特徵。讓X^TX的行列式不爲0，然後繼續使用最小二乘法。

第二，當樣本特徵n非常的大的時候，計算X^TX的逆矩陣是一個非常耗時的工作（nxn的矩陣求逆），甚至不可行。此時以梯度下降爲代表的迭代法仍然可以使用。那這個n到底多大就不適合最小二乘法呢？如果你沒有很多的分佈式大數據計算資源，建議超過10000個特徵就用迭代法吧。或者通過主成分分析降低特徵的維度後再用最小二乘法。

第三，如果擬合函數不是線性的，這時無法使用最小二乘法，需要通過一些技巧轉化爲線性才能使用，此時梯度下降仍然可以用。

第四，講一些特殊情況。當樣本量m很少，小於特徵數n的時候，這時擬合方程是欠定的，常用的優化方法都無法去擬合數據。當樣本量m等於特徵數n的時候，用方程組求解就可以了。當m大於n時，擬合方程是超定的，也就是我們常用與最小二乘法的場景了。

其他博客：機器學習
相關鏈接：關注我

最小二乘法總結

1.最小二乘法的原理與要解決的問題

2.最小二乘法的代數法解法

3.最小二乘法的矩陣法解法

4.最小二乘法的侷限性和適用場景

C語言--右移左移

12款高效開源Wiki系統推薦，打造團隊知識管理利器

一個開源且全面的C#算法實戰教程

dotnet 基於 DirectML 控制檯運行 Phi-3 模型

自定義MyBatis插件

一款.NET開源、功能強大、跨平臺的繪圖庫 - OxyPlot

常用的 Git 指令

鼠標控制軟件有可能和虛擬機軟件產生衝突

sm4加密工具類

Mac新手開發者必瞭解知識點

IntelliJ IDEA的安裝、破解和插件配置

機器學習有價值的文章鏈接

Mac下spark的安裝和完整的開發環境搭建

python及其相關依賴包的安裝

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結