概述

擬牛頓方法類似於最速下降法，在每一步迭代過程中僅僅利用梯度信息，但是通過度量梯度之間的變化，能夠產生超線性的收斂效果。本節主要學習一下知識點：
1. 擬牛頓方程推導
2. 幾個常見的擬牛頓方法
3. 擬牛頓方法的收斂性

擬牛頓方程

擬牛頓方法既有線搜索的影子也有牛頓方法的思想，下面從兩個角度分別介紹擬牛頓方程，即在擬牛頓方法中要遵循的一個原則。

線搜索角度

假設在第K步迭代過程中，對點xk 進行建模

m k (p) = f k + \nabla f T k + 1 2 p T B k p

，這是一個相對標準的建模過程，在點x_k處尋找下一個搜索方向。該模型滿足

mk(0)=fk; ∇mk(0)=∇fTk 。
此時如果B爲正定矩陣，則最優解爲

pk=−B−1k∇fk 。則下一個迭代值

xk+1=xk+αkpk .
問題來了如何構造有效的

Bk 呢，如果選擇Hessian矩陣該方法就爲線搜索的牛頓方法。
高人就想出了通過當前點和上一步的搜索點構造該矩陣的方法，需要滿足模型m和目標函數f在xk,xk+1 保持梯度一致。

此時在xk+1 處的模型爲

m k + 1 (p) = f k + 1 + \nabla f T k + 1 + 1 2 p T B k + 1 p

，需要滿足

xk，xk+1 梯度一致。則有

\nabla m k + 1 (x k + 1) = \nabla f k + 1 \nabla m k + 1 (x k) = \nabla f k

等價於

\nabla m k + 1 (0) = \nabla f k + 1 \nabla m k + 1 (- α k p k) = \nabla f k

從而有

\nabla m k + 1 (- α k p k) = \nabla f k + 1 - α k B k + 1 p k = \nabla f k

。根據

xk+1=xk+αkpk 有

Bk+1(xk+1−xk)=∇fk+1−∇fk 。一般情況下記

s k = x k + 1 - x k y k = \nabla f k + 1 - \nabla f k

可以推出擬牛頓方程也叫（Secant equation）：

B k + 1 s k = y k

牛頓法角度

擬牛頓方法也可以認爲是一種特殊的共軛梯度算法，其主要思想是利用目標函數梯度的差分構造目標函數Hessian矩陣的某種近似，然後基於牛頓方程產生搜索方向，最後通過線搜索完成迭代過程。
假設在點xk+1 處進行泰勒展開有

f (x) = f k + 1 + \nabla f T k + 1 (x - x k + 1) + 1 2 (x - x k + 1) T \nabla 2 f k + 1 (x - x k + 1)

兩端對x求梯度並且

x=xk 有

\nabla f k = \nabla f k + 1 + \nabla 2 f k + 1 (x k - x k + 1)

，整理後得到

\nabla 2 f k + 1 (x k + 1 - x k) = \nabla f k + 1 - \nabla f k

由於Hessian矩陣比較難求解，用其近似矩陣

Bk+1 代替，同時借用上面的表達式有

Bk+1sk=yk 。
如果記

Hk+1=B−1k+1 ，也有

Hk+1sk=yk 。
以上兩種形式都稱爲擬牛頓方程。

擬牛頓方程：Bk+1sk=yk 或者Hk+1sk=yk

擬牛頓方程成立條件

由於Bk 需要滿足對稱正定，因此需要滿足sTkyk≥0 ，如果步長滿足一定條件，例如Wolfe條件，則上式一定成立。

前半部分是由於sTkBk+1sk=skyk ，由於B是正定的，肯定必須滿足兩個向量相乘大於0

後半部分是由於，Wolfe條件的第二個約束是

\nabla f T k + 1 s k \geq c 2 \nabla f T k s k < = > \nabla f T k + 1 s k - \nabla f T k s k \geq c 2 \nabla f T k s k - \nabla f T k s k < = > y T k s k \geq (c 1 - 1) α k \nabla f T k p k

由於

c2<1 如果搜索方向是下降方向則一定是大於0的。

擬牛頓方法

根據擬牛頓方程可以找到很多滿足約束的矩陣，爲求解方便需要進行一些約束，主要是秩的約束，由此產生了下面一些方法。

DFP方法

爲保證B求解的唯一性，尋找滿足條件約束並且離Bk 最近的一個矩陣，因此問題轉變爲：

m i n | | B - B k | | s . t B = B T B s k = y k

。
如果上面範數選擇Weighted Frobenius範數並且加權矩陣採用平均Hessian，則可以推導出一個唯一確定的解

B k + 1 = (I - ρ k y k s T k) B k (I - ρ k y k s T k) + ρ k y k y T k

其中

ρ k = 1 / (y T k s k)

。由於實際應用時會用到

Hk+1=B−1k+1 ，根據一個求逆公式（Morrison-Woodbury）可以得到

H k + 1 = H k - H k y k y T k H k y T k H k y k + s k s T k y T k s k

該構造方法稱之爲DFP方法

BFGS方法

類似於DFP方法，如果利用第二個擬牛頓方程，問題轉變爲：

m i n | | H - H k | | s . t H = H T H s k = y k

。
如果上面範數選擇Weighted Frobenius範數並且加權矩陣採用平均Hessian，則可以推導出一個唯一確定的解

H k + 1 = (I - ρ k s k y T k) H k (I - ρ k s k y T k) + ρ k s k s T k

其中

ρ k = 1 / (y T k s k)

。根據一個求逆公式（Morrison-Woodbury）可以得到

B k + 1 = B k - B k s k s T k B k s T k B k s k + y k y T k y T k s k

該構造方法稱之爲BFGS方法，利用四個發明者名字進行命名。

DFP和BFGS關係

可以看到DFP和BFGS好像是將sk,yk以及Bk，Hk 進行了位置替換。理論證明他們互爲對偶。

BFGS和DFP一個比較好的性質是，如果H_k是正定的，則下一個Hk+1 也是正定的，可以從公式中推導出來。

BFGS和DFP都有一定能力進行自我修正，如果某個位置選擇的矩陣不好，在未來幾步呢，可以自我修復。這個能力，BFGS比DFP效果要好，這也是BFGS比較常用的原因。

不好的地方就是：需要存儲這個對稱矩陣。

BFGS算法如下圖所示

實際實現中初始值H0 一般選擇單位，初始化步長爲1。 Wolfe條件中的參數c1=10−1,c2=0.9

SR-1方法

上面推導DFP和BFGS方法是從最優化角度進行考慮，由於滿足擬牛頓方程解個數不止一個，另外一個自然的想法就是通過對Bk 進行修正從而得到Bk+1 ，即

B k + 1 = B k + Δ B k

。習慣上根據

ΔBk 的秩來稱呼校正公司，例如秩-1校正公式和秩-2校正公式

秩-2校正公式

DFP秩-2校正公式

H k + 1 = H k + a s k s T k + b H k y k y T k H k

BFGS秩-2校正公式

B k + 1 = B k + a y k y T k + b B k s k s T k B k

根據擬牛頓方程可以推導出參數a和b的值，最終結果和上述最優化問題保持一致。

秩-1校正公式（SR-1）

SR-1校正公式爲

H k + 1 = H k + v k v T k

根據擬牛頓條件可以推導出

H k + 1 = H k + ( s k - H k y k ) ( s k - H k y k ) T ( s k - H k y k ) T y k

優缺點

相對與BFGS

SR1能夠更好的擬合Hessian矩陣，因此在一些帶約束的問題或者部分可導的函數，不總是能滿足Wolfe條件或者sTkyk 是大於0的

SR1最大缺點是不能保證每一求解到的矩陣Hk+1 是正定的

Broyden族校正公式

校正公式爲：

H k + 1 = H k + a s k s T k + b (H k y k s T k + s k y T k H k) + c H k y k y T k H k

可以根據牛頓條件求解到參數值。

SR-1、DFP和BFGS都是該一族算法，共同的問題是
1）不能利用目標函數的稀疏性質
2）需要存儲中間矩陣H

收斂性

擬牛頓方法具有全局收斂性並且有超線性的收斂速度

總結

通過本節的學習能夠了解
1. 擬牛頓方程以及由來
2. DFP、BFGS方法的迭代公式以及使用條件、場景和優缺點
3. 瞭解其收斂速度

數值優化（Numerical Optimization）學習系列-擬牛頓方法（Quasi-Newton）

概述

擬牛頓方程

線搜索角度

牛頓法角度

擬牛頓方程成立條件

擬牛頓方法

DFP方法

BFGS方法

DFP和BFGS關係

SR-1方法

秩-2校正公式

秩-1校正公式（SR-1）

優缺點

Broyden族校正公式

收斂性

總結

【每週一文】Supervised Sequence Labelling with Recurrent Neural Networks

MAC 上配置 SecureCRT快捷鍵

數值優化（Numerical Optimization）學習系列-擬牛頓方法（Quasi-Newton）

【每週一文】Natural Language Processing (almost) From Scratch

【每週一文】A Few Usefull Things to know about Machine Learning

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結