最优化六：牛顿法（牛顿法、拟牛顿法、阻尼牛顿法）

原創

共和国之辉

2020-07-07 13:52

牛顿法将目标函数近似为二阶函数，沿着牛顿方向进行优化（包含了Hession矩阵与负梯度信息）。

阻尼牛顿法在更新参数之前进行了一维搜索确定步长，确保沿着下降的方向优化。

拟牛顿法用常数矩阵近似替代Hession矩阵或Hession矩阵的逆矩阵，不用求偏导与求逆，简化运算。

1 牛顿法

1.1 算法流程

梯度下降法利用了负梯度方向进行迭代，算法如下：

1.2 证明过程

对于最优化问题：

$\underset{x}{min}f(x)$ (1-1)

对函数进行二阶泰勒展开得到：

$f(x) = f(x_i) + \bigtriangledown ^Tf(x_i)(x-x_i) + \frac{1}{2}(x-x_i)^TA_i(x-x_i)$ (1-2)

将函数中的看做是变量，令 $\bigtriangleup x = x- x_i$ 代入(1-2)可以得到：

$\phi(\bigtriangleup x) = f(x_i) + \bigtriangledown ^Tf(x_i)\bigtriangleup x + \frac{1}{2}\bigtriangleup x^TA_i\bigtriangleup x$ (1-3)

求解最优的x使函数f(x)取得最小值，等价于找到最优的 $\bigtriangleup x$ 使得 $\phi(\bigtriangleup x)$ 取得最小值。令导数=0即可找到极值点，对(1-3)求导数使其=0得到：

$\bigtriangledown ^Tf(x_i)+A_i\bigtriangleup x = 0$ (1-4)

可以得到：

$x = x_i - A_i^{-1}\bigtriangledown f(x_i)$ (1-5)

需要逐次迭代可以写为：

$x_{i+1} = x_i - A_i^{-1}\bigtriangledown f(x_i)$ (1-6)

1.3 几何理解

梯度下降法搜索方向沿着等高线的法向进行搜索，每次迭代优化方向为梯度方向，即当前点所在等高线的法向。但往往等高线很少是正圆形，这种情况下搜索次数会过多。

牛顿法搜索方向为椭圆中心方向，这个方向也叫做牛顿方向，可以看到更新方程 $A_i^{-1}\bigtriangledown f(x_i)$ 的组成分为两部分： $\bigtriangledown f(x_i)$ 毋庸置疑是负梯度信息， $A_i^{-1}$ 包含了该处的曲率（Hession矩阵描述局部曲率）。如下图所示，方向为牛顿方向， $S^{-1}$ 为负梯度方向。

2 阻尼牛顿法

对于牛顿法，确定了迭代方向之后，迭代步长默认为1，但是这个迭代方向并不一定是朝着函数值下降的方向。可以进行简单判断，对当前迭代的方向与梯度方向进行内积，如果内积为负，则表明迭代方向为下降方向。

当前迭代方向如式（1-6） $- A_i^{-1}\bigtriangledown f(x_i)$ ，梯度方向\bigtriangledown f(x_i)。二者乘积为：

$- \bigtriangledown f(x_i)^TA_i^{-1}\bigtriangledown f(x_i)$ (2-1)

可以看到当且仅当Hession矩阵整定，才满足式（2-1）为负值。

对于牛顿法，当前点的Hession矩阵是正定的，才满足更新方程式下降的，这个限制是非常强的。为了确保每次迭代方向是下降的，提出了阻尼牛顿法，算法如下：

算法步长计算部分采用一维搜索法。可以看到，阻尼牛顿法相比于牛顿法，在每次参数更新之前，利用一维搜索法计算更新步长，确保优化方向为下降方向。

3 拟牛顿法

3.1 拟牛顿法原理

牛顿法的搜索方向是：

$d_i = - A_i^{-1}\bigtriangledown f(x_i)$ (3-1)

但是求二阶偏导数并求逆矩阵会带来大量计算，为了避免复杂的运算，拟牛顿法提出了设计矩阵U去近似逆矩阵 $A_i^{-1}$ 。但是需要满足一定条件。

任意两点梯度之差公式为：(两点函数值之差等于斜率乘以距离)

$\bigtriangledown f(x_{i+1})-\bigtriangledown f(x_i) = A_i(x_{i+1}-x_i)$ (3-2)

可以写成：

$x_{i+1}-x_i=A_i^{-1}(\bigtriangledown f(x_{i+1})-\bigtriangledown f(x_i))$ (3-3)

上式为拟牛顿条件。

（1）用于近似的矩阵U一定要正定，因为矩阵U代替了二阶偏导矩阵的功能，由式（2-1）可知需要满足正定。

（2）用于近似的矩阵U一定要满足拟牛顿条件

常用的拟牛顿法有DFP、BFGS，区别在于如何选取替代矩阵U。

3.2 DFP算法

利用矩阵G去替代 $A_i^{-1}$ ，并且每次都需要迭代计算可以得到：（为了便于区别，此处即为矩阵G，与3.1中的U同样）

$G_{i+1} = G_i + \bigtriangleup G_i$ (3-4)

DFP算法每次采用两个矩阵去近似 $\bigtriangleup G_i$ ，即：

$G_{i+1} = G_i + P_i+Q_i$ (3-5)

待定。令 $g_i = \bigtriangledown f(x_{i+1} ) - \bigtriangledown f(x_i)$ 3-5左右同时乘以可以得到：

$G_{i+1}g_i= G_ig_i + P_ig_i+Q_ig_i$ （3-6）

为了满足拟牛顿条件（3-3），可以令：

$Q_ig_i = -G_ig_i,P_ig_i = x_{i+1} - x_i$ （3-7）

满足3-7的很多，令 $d_i = x_{i+1} - x_i$ ，可得：

$P_i = \frac{d_{i}d_i^T}{d_i^Tg_i}$

$Q_i = -\frac{G_ig_ig_i^TG_i}{g_i^TG_ig_i}$

3.3 BFGS算法

GFP算法用于近似拟牛顿条件（3-3），BFGS用于近似拟牛顿条件（3-2）。前者用以替代Hession矩阵的逆 $A_i^{-1}$ ，一个用以替代Hession矩阵 $A_i^{}$ 。

用B矩阵代替：

$B_{i+1} = B_i + P_i+Q_i$

令 $d_i = x_{i+1} - x_i$ ，等式两端乘以以可以得到：

$B_{i+1}d_i= B_id_i + P_id_i+Q_id_i$

为了满足拟牛顿条件（3-2）可以令：

满足条件的如下：

$P_i = \frac{g_{i}g_i^T}{g_i^Td_i}$

$Q_i = -\frac{B_id_id_i^TB_i}{d_i^TB_id_i}$

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

牛顿法的收敛速度为何比梯度下降法快？

原文鏈接：牛頓法從本質上去看，牛頓法是二階收斂，梯度下降是一階收斂，所以牛頓法就更快。如果更通俗地說的話，比如你想找一條最短的路徑走到一個盆地的最底部，梯度下降法每次只從你當前所處位置選一個坡度最大的方向走一步，牛頓法在選

2020-07-08 06:58:33

最优化方法二：凸集、凸函数与凸优化

凸優化最基礎的優化方法，設定凸函數、凸集合條件，滿足該條件的優化問題可以方便地求解，同時非凸優化問題可以轉化成凸優化問題求解，這是凸優化最有價值的地方。 1 凸集凸集定義：對於集合D，若對於任意兩點滿足：

共和国之辉

2020-07-07 13:52:14

最优化方法四：线性规划与非线性规划

1 線性規劃與非線性規劃的區別線性規劃問題：目標函數與約束條件均爲優化變量的線性函數，不涉及變量的耦合與高次。注意線性規劃的約束條件也可以是不等式約束。表達式如下：

共和国之辉

2020-07-07 13:52:13

最优化方法三：等式约束优化、不等式约束优化、拉格朗日乘子法证明、KKT条件

1 等式約束優化問題等式約束問題如下：求解方法包括：消元法、拉格朗日乘子法。 1、消元法通過等式約束條件消去一個變量，得到其他變量

共和国之辉

2020-07-07 13:52:13

最优化五：梯度法（梯度下降法、最优梯度法、共轭梯度法）

梯度下降法沿着負梯度方向逐步更新優化參數最優梯度法利用梯度計算步長，減小在谷底的來回振動共軛梯度法每次搜索方向與上次方向共軛，理論上K維變量經過k次迭代可找到最優解 1 梯度下降法函數在某一點的梯度是，在該方向單位步長上升最快的向量

共和国之辉

2020-07-07 13:52:13

最优化八：高斯牛顿法、LM法

梯度法：，負梯度方向牛頓法：，A爲Hession矩陣高斯牛頓法：，爲的解 LM法：，爲的解 1 高斯牛頓法（Gauss-Newton）針對優化問題求解x使得f(x)取得最小值，採用高斯牛頓法，步驟如下： step1：給定初始點 st

共和国之辉

2020-07-07 13:52:13

最优化方法一：微分求极值

1 一元函數求極值一元函數的極值通過導數判定，（前提是要有導數）。首先求解駐點，令一階導數等於0：

共和国之辉

2020-07-07 13:52:13

最优化七：一维搜索法

0 一維搜索法最優化的目的是優化目標：，優化思路是迭代計算：（1）計算優化方向（2）計算優

共和国之辉

2020-07-07 13:52:10

Renascence架构简介

Renascence架構 Renascence架構是 A-GP-B 式的橋樑架構，它要求下層庫不直接對外提供接口，而是往GP庫註冊函數，上層庫用GP公式間接調用下層庫的代碼。 GP庫位於應用與lib庫之間，作爲應用調用lib庫的

2020-06-28 23:08:00

最优化算法-模拟退火(SA)

最優化問題最優化問題，就是在解決問題的過程中，挑選最好的一種決策全局最優針對一定條件/環境下的一個問題/目標，若一項決策和所有解決該問題的決策相比是最優的，就可以被稱爲全局最優。我們可以定義：在無限制環境集合R內，假設限制條件/環

2020-06-21 05:00:52

高斯牛顿法

Gauss-Newton算法是解決非線性最優問題的常見算法之一，最近研讀開源項目代碼，又碰到了，索性深入看下。本次講解內容如下：基本數學名詞識記牛頓法推導、算法步驟、計算實例高斯牛頓法推導(如何從牛頓法派生)、算法步驟、編程實例

2020-06-20 19:09:40

对函数2*x-cos(x)应用二分法，黄金分割法，斐波拉契法求根

比較二分法，黃金分割法，斐波拉契數列法求解區間的不同 #include <stdio.h> #include <math.h> const double eps = 1e-4; //定義精度 double i,j,sum

2020-06-16 08:14:45

MOSEK二次规划函数quadprog错误: ERROR - (quadprog): H is not a square matrix of dimension length(f)

2020-02-27 17:04:33

不动点迭代（Fixed Point Iteration）

2020-02-22 18:13:02

LR(逻辑回归)

2020-02-22 14:17:01

24小時熱門文章

最新文章

最新評論文章