最優化六：牛頓法（牛頓法、擬牛頓法、阻尼牛頓法）

原創

共和国之辉

2020-07-07 13:52

牛頓法將目標函數近似爲二階函數，沿着牛頓方向進行優化（包含了Hession矩陣與負梯度信息）。

阻尼牛頓法在更新參數之前進行了一維搜索確定步長，確保沿着下降的方向優化。

擬牛頓法用常數矩陣近似替代Hession矩陣或Hession矩陣的逆矩陣，不用求偏導與求逆，簡化運算。

1 牛頓法

1.1 算法流程

梯度下降法利用了負梯度方向進行迭代，算法如下：

1.2 證明過程

對於最優化問題：

$\underset{x}{min}f(x)$ (1-1)

對函數進行二階泰勒展開得到：

$f(x) = f(x_i) + \bigtriangledown ^Tf(x_i)(x-x_i) + \frac{1}{2}(x-x_i)^TA_i(x-x_i)$ (1-2)

將函數中的看做是變量，令 $\bigtriangleup x = x- x_i$ 代入(1-2)可以得到：

$\phi(\bigtriangleup x) = f(x_i) + \bigtriangledown ^Tf(x_i)\bigtriangleup x + \frac{1}{2}\bigtriangleup x^TA_i\bigtriangleup x$ (1-3)

求解最優的x使函數f(x)取得最小值，等價於找到最優的 $\bigtriangleup x$ 使得 $\phi(\bigtriangleup x)$ 取得最小值。令導數=0即可找到極值點，對(1-3)求導數使其=0得到：

$\bigtriangledown ^Tf(x_i)+A_i\bigtriangleup x = 0$ (1-4)

可以得到：

$x = x_i - A_i^{-1}\bigtriangledown f(x_i)$ (1-5)

需要逐次迭代可以寫爲：

$x_{i+1} = x_i - A_i^{-1}\bigtriangledown f(x_i)$ (1-6)

1.3 幾何理解

梯度下降法搜索方向沿着等高線的法向進行搜索，每次迭代優化方向爲梯度方向，即當前點所在等高線的法向。但往往等高線很少是正圓形，這種情況下搜索次數會過多。

牛頓法搜索方向爲橢圓中心方向，這個方向也叫做牛頓方向，可以看到更新方程 $A_i^{-1}\bigtriangledown f(x_i)$ 的組成分爲兩部分： $\bigtriangledown f(x_i)$ 毋庸置疑是負梯度信息， $A_i^{-1}$ 包含了該處的曲率（Hession矩陣描述局部曲率）。如下圖所示，方向爲牛頓方向， $S^{-1}$ 爲負梯度方向。

2 阻尼牛頓法

對於牛頓法，確定了迭代方向之後，迭代步長默認爲1，但是這個迭代方向並不一定是朝着函數值下降的方向。可以進行簡單判斷，對當前迭代的方向與梯度方向進行內積，如果內積爲負，則表明迭代方向爲下降方向。

當前迭代方向如式（1-6） $- A_i^{-1}\bigtriangledown f(x_i)$ ，梯度方向\bigtriangledown f(x_i)。二者乘積爲：

$- \bigtriangledown f(x_i)^TA_i^{-1}\bigtriangledown f(x_i)$ (2-1)

可以看到當且僅當Hession矩陣整定，才滿足式（2-1）爲負值。

對於牛頓法，當前點的Hession矩陣是正定的，才滿足更新方程式下降的，這個限制是非常強的。爲了確保每次迭代方向是下降的，提出了阻尼牛頓法，算法如下：

算法步長計算部分採用一維搜索法。可以看到，阻尼牛頓法相比於牛頓法，在每次參數更新之前，利用一維搜索法計算更新步長，確保優化方向爲下降方向。

3 擬牛頓法

3.1 擬牛頓法原理

牛頓法的搜索方向是：

$d_i = - A_i^{-1}\bigtriangledown f(x_i)$ (3-1)

但是求二階偏導數並求逆矩陣會帶來大量計算，爲了避免複雜的運算，擬牛頓法提出了設計矩陣U去近似逆矩陣 $A_i^{-1}$ 。但是需要滿足一定條件。

任意兩點梯度之差公式爲：(兩點函數值之差等於斜率乘以距離)

$\bigtriangledown f(x_{i+1})-\bigtriangledown f(x_i) = A_i(x_{i+1}-x_i)$ (3-2)

可以寫成：

$x_{i+1}-x_i=A_i^{-1}(\bigtriangledown f(x_{i+1})-\bigtriangledown f(x_i))$ (3-3)

上式爲擬牛頓條件。

（1）用於近似的矩陣U一定要正定，因爲矩陣U代替了二階偏導矩陣的功能，由式（2-1）可知需要滿足正定。

（2）用於近似的矩陣U一定要滿足擬牛頓條件

常用的擬牛頓法有DFP、BFGS，區別在於如何選取替代矩陣U。

3.2 DFP算法

利用矩陣G去替代 $A_i^{-1}$ ，並且每次都需要迭代計算可以得到：（爲了便於區別，此處即爲矩陣G，與3.1中的U同樣）

$G_{i+1} = G_i + \bigtriangleup G_i$ (3-4)

DFP算法每次採用兩個矩陣去近似 $\bigtriangleup G_i$ ，即：

$G_{i+1} = G_i + P_i+Q_i$ (3-5)

待定。令 $g_i = \bigtriangledown f(x_{i+1} ) - \bigtriangledown f(x_i)$ 3-5左右同時乘以可以得到：

$G_{i+1}g_i= G_ig_i + P_ig_i+Q_ig_i$ （3-6）

爲了滿足擬牛頓條件（3-3），可以令：

$Q_ig_i = -G_ig_i,P_ig_i = x_{i+1} - x_i$ （3-7）

滿足3-7的很多，令 $d_i = x_{i+1} - x_i$ ，可得：

$P_i = \frac{d_{i}d_i^T}{d_i^Tg_i}$

$Q_i = -\frac{G_ig_ig_i^TG_i}{g_i^TG_ig_i}$

3.3 BFGS算法

GFP算法用於近似擬牛頓條件（3-3），BFGS用於近似擬牛頓條件（3-2）。前者用以替代Hession矩陣的逆 $A_i^{-1}$ ，一個用以替代Hession矩陣 $A_i^{}$ 。

用B矩陣代替：

$B_{i+1} = B_i + P_i+Q_i$

令 $d_i = x_{i+1} - x_i$ ，等式兩端乘以以可以得到：

$B_{i+1}d_i= B_id_i + P_id_i+Q_id_i$

爲了滿足擬牛頓條件（3-2）可以令：

滿足條件的如下：

$P_i = \frac{g_{i}g_i^T}{g_i^Td_i}$

$Q_i = -\frac{B_id_id_i^TB_i}{d_i^TB_id_i}$

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

牛頓法的收斂速度爲何比梯度下降法快？

原文鏈接：牛頓法從本質上去看，牛頓法是二階收斂，梯度下降是一階收斂，所以牛頓法就更快。如果更通俗地說的話，比如你想找一條最短的路徑走到一個盆地的最底部，梯度下降法每次只從你當前所處位置選一個坡度最大的方向走一步，牛頓法在選

2020-07-08 06:58:33

最優化方法二：凸集、凸函數與凸優化

凸優化最基礎的優化方法，設定凸函數、凸集合條件，滿足該條件的優化問題可以方便地求解，同時非凸優化問題可以轉化成凸優化問題求解，這是凸優化最有價值的地方。 1 凸集凸集定義：對於集合D，若對於任意兩點滿足：

共和国之辉

2020-07-07 13:52:14

最優化方法四：線性規劃與非線性規劃

1 線性規劃與非線性規劃的區別線性規劃問題：目標函數與約束條件均爲優化變量的線性函數，不涉及變量的耦合與高次。注意線性規劃的約束條件也可以是不等式約束。表達式如下：

共和国之辉

2020-07-07 13:52:13

最優化方法三：等式約束優化、不等式約束優化、拉格朗日乘子法證明、KKT條件

1 等式約束優化問題等式約束問題如下：求解方法包括：消元法、拉格朗日乘子法。 1、消元法通過等式約束條件消去一個變量，得到其他變量

共和国之辉

2020-07-07 13:52:13

最優化五：梯度法（梯度下降法、最優梯度法、共軛梯度法）

梯度下降法沿着負梯度方向逐步更新優化參數最優梯度法利用梯度計算步長，減小在谷底的來回振動共軛梯度法每次搜索方向與上次方向共軛，理論上K維變量經過k次迭代可找到最優解 1 梯度下降法函數在某一點的梯度是，在該方向單位步長上升最快的向量

共和国之辉

2020-07-07 13:52:13

最優化八：高斯牛頓法、LM法

梯度法：，負梯度方向牛頓法：，A爲Hession矩陣高斯牛頓法：，爲的解 LM法：，爲的解 1 高斯牛頓法（Gauss-Newton）針對優化問題求解x使得f(x)取得最小值，採用高斯牛頓法，步驟如下： step1：給定初始點 st

共和国之辉

2020-07-07 13:52:13

最優化方法一：微分求極值

1 一元函數求極值一元函數的極值通過導數判定，（前提是要有導數）。首先求解駐點，令一階導數等於0：

共和国之辉

2020-07-07 13:52:13

最優化七：一維搜索法

0 一維搜索法最優化的目的是優化目標：，優化思路是迭代計算：（1）計算優化方向（2）計算優

共和国之辉

2020-07-07 13:52:10

Renascence架構簡介

Renascence架構 Renascence架構是 A-GP-B 式的橋樑架構，它要求下層庫不直接對外提供接口，而是往GP庫註冊函數，上層庫用GP公式間接調用下層庫的代碼。 GP庫位於應用與lib庫之間，作爲應用調用lib庫的

2020-06-28 23:08:00

最優化算法-模擬退火(SA)

最優化問題最優化問題，就是在解決問題的過程中，挑選最好的一種決策全局最優針對一定條件/環境下的一個問題/目標，若一項決策和所有解決該問題的決策相比是最優的，就可以被稱爲全局最優。我們可以定義：在無限制環境集合R內，假設限制條件/環

2020-06-21 05:00:52

高斯牛頓法

Gauss-Newton算法是解決非線性最優問題的常見算法之一，最近研讀開源項目代碼，又碰到了，索性深入看下。本次講解內容如下：基本數學名詞識記牛頓法推導、算法步驟、計算實例高斯牛頓法推導(如何從牛頓法派生)、算法步驟、編程實例

2020-06-20 19:09:40

對函數2*x-cos(x)應用二分法，黃金分割法，斐波拉契法求根

比較二分法，黃金分割法，斐波拉契數列法求解區間的不同 #include <stdio.h> #include <math.h> const double eps = 1e-4; //定義精度 double i,j,sum

2020-06-16 08:14:45

MOSEK二次規劃函數quadprog錯誤: ERROR - (quadprog): H is not a square matrix of dimension length(f)

2020-02-27 17:04:33

不動點迭代（Fixed Point Iteration）

2020-02-22 18:13:02

LR(邏輯迴歸)

2020-02-22 14:17:01

24小時熱門文章

最新文章

最新評論文章