高斯牛頓法和LM法

原創

2019-09-22 18:53

文章目錄

以線性迴歸爲例，假設最佳函數爲 $y=\bold{\theta}^T\mathbf{x}$ , 對於每對觀測結果 $(x^{(i)},y^{(i)})$ ，都有
$y^{(i)}=\theta^T x^{(i)} + \epsilon^{(i)}$
最後就是從下式求解 $\bold{\theta}$ 。

$\mathbf{y} = \begin{bmatrix} \mathbf{x}_1 \\ \mathbf{x}_2 \\ ... \\ \mathbf{x}_m \\ \end{bmatrix} \bold{\theta}$

1. 高斯牛頓法

高斯-牛頓法是在牛頓法基礎上進行修改得到的，用來(僅用於)解決非線性最小二乘問題。高斯-牛頓法相較牛頓法的最大優點是不需要計算二階導數矩陣(Hessian矩陣)，當然，這項好處的代價是其僅適用於最小二乘問題。如下是其推導過程：

首先，假設 $r(\mathbf{x_i})$ 是最小二乘的殘差，那麼最小二乘的最終目標就是令殘差和 $f(\theta)$ 最小。
$f(\theta)=\frac{1}{2} \sum_{i=1}^{m} [r\left(\mathbf{x}_{\mathbf{i}}\right)]^2$
利用用牛頓法求解 $f(\theta)$ 的最小值，需要計算其梯度向量與 Hessian 矩陣。

先求梯度向量：
$\nabla_{\theta} f=\frac{\partial f}{\partial \theta}=\sum_{i=1}^{m} r_{i} \frac{\partial r_{i}}{\partial \theta}= \left[\begin{array}{c}{\nabla_{\theta} r\left(x_{1}\right)^{T}} \\ {\nabla_{\theta} r\left(x_{2}\right)^{T}} \\ {\vdots} \\ {\nabla_{\theta} r\left(x_{m}\right)^{T}}\end{array}\right]^T \left[\begin{array}{cccc}{r\left(x_{1}\right)} \\ {r\left(x_{2}\right)} \\ {\dots} \\ {r\left(x_{m}\right)}\end{array}\right]$

我們假設 $J_{\theta}(r)$ 是 $r$ 對 $\theta$ 求導的 Jacobian 矩陣，因爲

$J_{r}(\theta)=\begin{bmatrix} \frac{\partial r(x_1)}{\partial \theta_1} & \frac{\partial r(x_1)}{\partial \theta_2} & ... & \frac{\partial r(x_1)}{\partial \theta_n} \\ \frac{\partial r(x_2)}{\partial \theta_1} & \frac{\partial r(x_2)}{\partial \theta_2} & ... & \frac{\partial r(x_2)}{\partial \theta_n} \\ ...\\ \frac{\partial r(x_n)}{\partial \theta_1} & \frac{\partial r(x_n)}{\partial \theta_2} & ... & \frac{\partial r(x_n)}{\partial \theta_n} \\ \end{bmatrix}=\left[\begin{array}{c}{\nabla_{\theta} r\left(x_{1}\right)^{T}} \\ {\nabla_{\theta} r\left(x_{2}\right)^{T}} \\ {\vdots} \\ {\nabla_{\theta} r\left(x_{m}\right)^{T}}\end{array}\right]$

所以， $\nabla_{\theta} f = J_\theta(\mathbf{r})^T_{(n\times m)}\bold{r}$

有了 $\nabla_{\theta} f=\sum_{i=1}^{m}r_i\frac{\partial r_i}{\partial \theta}=\sum_{i=1}^{m}r_i\nabla_\theta r_i$ ，我們然後就可以得到 Hessian 矩陣

$H=\sum_{i=1}^{m} (\nabla_{\theta}r_i)^T (\nabla_\theta r_i) + r_i(H_\theta r_i)$

假設我們的殘差 $r_i$ 特別小，我們就可以忽略殘差項，也就是說 $H \approx \sum_{i=1}^{m} (\nabla_{\theta}r_i) (\nabla_\theta r_i)^T = J^T_\theta(\mathbf{r})J_\theta(\mathbf{r})$ 。

將梯度向量，Hessian矩陣(近似)帶入牛頓法公式，得到高斯-牛頓法的迭代式：
$\theta_{i}=\theta_{i-1}-\left(J_{r}^{T} J_{r}\right)^{-1}_{(n\times n)} J_{r}^{T} r_{(m\times 1)}$

2. LM (Levenberg-Marquart) 法

與牛頓法一樣，當初始值距離最小值較遠時，高斯-牛頓法的並不能保證收斂。並且當 $J^T_r J_r$ 近似奇異 (determinant $\approx 0$ ) 的時候，高斯牛頓法也不能正確收斂。Levenberg-Marquart 算法是對上述缺點的改進。L-M方法是對 梯度下降法 與 高斯-牛頓法 進行線性組合以充分利用兩種算法的優勢。通過在Hessian矩陣中加入阻尼係數 $\lambda$ 來控制每一步迭代的步長以及方向：

初始化 $\theta_0$ , $\lambda_0$ 。
計算當前點 $\theta_i$ 處的殘差向量 $r_i$ 與雅各比矩陣 $J_r$ 。
通過求解 $(H_i+λI)ϵ=−JT_r r_i$ 求解迭代方向 $ϵ$ 。
計算 $θ'_i=θ_i+ϵ$ 點處的殘差向量 $r'_i$ 。
如果 $||r'_i||^2>∥r_i∥^2$ ，即殘差沒有下降，則更新 $λ=βλ$ ，增大 $λ$ 重新回到第三步重新求解新的 $ϵ$ 。如果殘差下降，則更新 $θ_{i+1} = θ_i+ϵ$ ，到第二步，並且降低 $λ=αλ$ ，增大迭代步長。

在曲線擬合實踐中， $α$ 通常選取 0.1， $β$ 選取10。

我們可以看出，在 $\lambda$ 較大時，亦即離最低點較遠時， $\lambda I> H$ ， $\epsilon \approx \frac{1}{\lambda}J_r^Tr$ ，而這就是梯度下降的解。如果 $\lambda$ 較小時， $\epsilon \approx -H^{-1}J_r^Tr$ ，而這是牛頓法的解。當然我們可以用高斯牛頓的解近似牛頓法。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

高斯牛頓法和LM法

文章目錄

1. 高斯牛頓法

2. LM (Levenberg-Marquart) 法

非線性優化(梯度下降，高斯法)

C++ 運行期多態和編譯器多態

Resource Acquisition is Initialization (RAII)

高斯牛頓法和LM法

矩陣小知識

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結