這是前一段時間寫的博客，然後又重新整理了一下

【最速下降法】

無約束最優化方法不涉及約束條件，所以都是介紹如何尋找搜索方向以及搜索步長。
無約束最優化問題的目標函數：

min x \in R n f (x)

感覺這latex還是有些彆扭，稍不留意就直接當做字符處理了。
還是首先介紹一下梯度下降，梯度下降學過優化的都很清楚，一般叫最速下降法，這個方法有兩點，首先是

x 更新的方向是負梯度方向，第二個是沿着該方向搜索，找到該方向的最小值所對應的

x 就是下次更新的值。梯度下降是最簡單的一種方法，但是很多情況下卻並不使用這種方法，原因是收斂速率比較慢，問題出在第二步上，由於搜索搜索時一直打到該方向的最小值，那麼很顯然，繼續沿着該方向搜索會使函數值變小，函數梯度與搜索方向夾角大於九十度，所以該點的梯度和搜索方向在此時正交，這樣相鄰搜索點的梯度就會呈現鋸齒狀，函數沿着鋸齒狀下降，嚴重降低目標函數的收斂速率。
梯度下降的遞推公式推導是根據函數的一階泰勒展開近似得到的。將

f(x) 在

x(k) 附近進行一階泰勒展開：

f (x) \approx f (x (k)) + g T k (x - x (k))

這裏,

gk=g(x(k))=∇f(x(k)) 爲

f(x) 在

x(k) 的梯度。
那麼第

k+1 次的迭代值就可以通過：

x (k + 1) \leftarrow x (k) + λ k p k

.
其中

pk 是搜索方向，取負梯度方向

pk=−∇f(x(k)) 可以使函數下降最快，

λk 是步長，並且取

λk 使得

f (x (k) + λ k p k) = min λ \geq 0 f (x (k) + λ p k)

最速下降法就是這樣，不斷地尋找搜索方向以及確定搜索步長，直到達到終止條件，相鄰函數值相遇某個閾值或是

x(k) 和

x(k+1) 小於某個閾值。但是產生的問題就是最速下降在接近終點的時候收斂速度較慢，容易之字形收斂。當然步長也不必是取該方向下降盡頭的值，可以取固定值，但是太大容易發散，太小收斂速率比較慢。
關於隨機梯度下降法與批量下降法，大多數用梯度下降是求無約束目標函數，例如求經驗損失最小時函數的參數，含有大量的訓練數據。批量下降法是同時使用所有數據對梯度進行更新，很顯然需要好多次迭代。隨機梯度下降是每次只使用一個數據對函數參數進行更新，這樣往往只通過一部分數據更新參數就會收斂，但是由於每次根據一個數據跟新，容易造成噪音問題。

【牛頓法】

由於最速梯度下降收斂速度並不“最速”，局部搜索中最速下降的方向和全局的最小值方向並不一致，所以就有後來改進的方法，包括牛頓法以及擬牛頓法。
牛頓法要求f(x) 具有二階連續可導性。
仍然考慮無約束最優化問題的目標函數：

min x \in R f (x)

這裏所不同的是進行二階泰勒展開：

f (x) \approx f (x (k)) + g T k (x - x (k)) + 1 2 (x - x (k)) T H (x (k)) (x - x (k))

這裏,

gk=g(x(k))=∇f(x(k)) 爲

f(x) 在

x(k) 的梯度。

H(x(k)) 是

f(x) 的海塞矩陣

H (x) = [\partial 2 f ( x ) \partial x i \partial x j] n \times n

顯然，

f(x) 有極值的條件是在

xk 處的一階導數爲0，

∇f(x)=0 ,所以，當我們從

xk 處開始搜索時，搜索終止處

xk+1 應該滿足

∇f(x(k+1))=0 。所以我們對二階近似求導。

\nabla f (x) = g k + H k (x - x (k))

所以

g k + H k (x - x (k)) = 0

then,

x (k + 1) = x (k) - H - 1 k g k

經典牛頓法雖然具有二次收斂性，但是要求初始點需要儘量靠近極小點，否則有可能不收斂。計算過程中需要計算目標函數的二階偏導數，難度較大。更爲複雜的是目標函數的Hesse矩陣無法保持正定，會導致算法產生的方向不能保證是f在Xk 處的下降方向，從而令牛頓法失效；特別的，如果Hesse矩陣奇異，牛頓方向可能根本是不存在的。

擬牛頓法

上面說了，雖然牛頓法能夠具有二次收斂性，但是要求太高，個別情況下甚至無法求出牛頓法的迭代方向，所以就有了擬牛頓法，來對Hesse矩陣的逆進行近似。
通過泰勒二階近似可以得到：

\nabla f (x k + 1) = \nabla f (x k) + H k (x (k + 1) - x k)

令，

y k = \nabla f (x k + 1) - \nabla f (x k), s k = x (k + 1) - x k

then,

y k = H k s k

或者說，

H - 1 k y k = s k

注意到，

s k = x (k + 1) - x (k) = α d k

,所以擬牛頓法模擬了牛頓的方向。
所以，擬牛頓法選取滿足條件

Bksk=yk ,

Bk 作爲Hesse矩陣

Hk 的近似，或者

sk=Gkyk

Gk 作爲hesse矩陣逆的近似，而且要使得計算簡便。當有了

Bk 之後，通過對

Bk 進行低秩修改得到

Bk+1 ,

B k + 1 = B k + Δ k

使其仍滿足近似條件。
一般，最初始

Bk 都是使用單位矩陣或者隨機初始化。

SR1

根據修改Bk 方法的不同，衍生出很多不同的方法，最簡單的就是給Bk−1 加上一個秩爲1的對稱矩陣，由於秩爲1的對稱矩陣可以寫成一個列向量和其轉置相乘的形式，所以Bk 的約束條件可以寫成：

(B k - 1 + β k u k u T k) s k = y k

展開得到：

B k - 1 s k + β k u k u T k s k = y k

注意到

uTksk 是個常數，所以，

- B k - 1 s k + y k = (β k u T k s k) u k

所以我們可以選

βk 使其滿足

βkuTksk=1

u k = y k - B k - 1 s k, β k = 1 u T k s k = 1 s T k u k = 1 s T k ( y k - B k - 1 s k )

最後得到

Bk 的更新式子

B k = B k - 1 + ( y k - B k - 1 s k ) ( y k - B k - 1 s k ) T s T k ( y k - B k - 1 s k )

當然，通過

Gk 也能得到類似的式子，

BFGS

BFGS方法是一種秩2近似，至於爲什麼使用秩2近似這個暫時還不得而知。先講一下是如何推導的。
BFGS是近似海瑟矩陣H ,首先，相應的牛頓條件是

B k + 1 s k = y k

使用秩2近似，

B k + 1 = B k + P k + Q k = B k + α u k u T k + β v k v T k

所以，

B k + 1 s k = (B k + P k + Q k) s k = B k s k + α u k u T k s k + β v k v T k s k = y k

B k + 1 s k = B k s k + (α u T k s k) u k + (β v T k s k) v k = y k

由於滿足條件的

α,β,uk,vk 相當多，所以可以這樣設置，

α u T k s k = 1, β v T k s k = 1

α = 1 u T k s k, β = 1 v T k s k

這樣式子就成了

B k + 1 s k = B k s k + u k + v k = y k

令

uk=yk,Bksk+vk=0,vk=−Bksk
所以(

Bk 是對稱的)

B k = B k + α u k u T k + β v k v T k

= B k + y k y T k y T k s k - B k s k s T k B k s T k B k s k

我們使用的

Bk 的逆，所以這裏還需要使用Sherman-Morrison公式，假設A是n階可逆矩陣，

u,v 是n維向量，且

A+uvT 也是可逆矩陣，則

(A + u v T) - 1 = A - 1 - A - 1 u v T A - 1 1 + v T A - 1 u

得到

B - 1 k + 1 = (I - s k y T k y T k s k) B - 1 k (I - y k s T k y T k s k) + s k s T k y T k s k

或者說使用Sherman–Morrison–Woodbury formula 進行一步變換【7】

(A + U V T) - 1 = A - 1 - A - 1 U (I + V T A - 1 U) - 1 V T A - 1

由這個式子就很容推了，上面式子可以寫成

(A + \sum i = 1 k u i v T i) - 1 = A - 1 - A - 1 U (C) - 1 V T A - 1

C i j = δ i j + v T i A - 1 u j . i, j = 1, 2, . . . k

很明顯，BFGS是對於Sherman–Morrison–Woodbury k=2的情況，
我們可以令

u 1 = v 1 = y k ( s T k y k ) 1 / 2, u 2 = - v 2 = B k s k ( s T k B k s k ) 1 / 2

我們可以令

Hk=B−1k

C 11 = 1 + v T 1 A - 1 u 1 = 1 + y T k H k y k s T k y k

C 22 = 1 + v T 2 A - 1 u 2 = 1 - s T k B k H k B k s k s T k B k s k = 1 - 1 = 0

C 12 = v T 1 u 2 = y T k B k s k ( s T k y k ) 1 / 2 ) ( s T k B k s k ) 1 / 2 = ( s T k B k s k ) 1 / 2 ( s T k y k ) 1 / 2

C 21 = v T 2 u 1 = - C 11

回想一下2x2矩陣的逆

C = {β - α α 0}

C - 1 = 1 α 2 {0 α - α β}

β = C 11 = 1 + y T k H k y k s T k y k, α = C 12 = ( s T k B k s k ) 1 / 2 ( s T k y k ) 1 / 2

然後就是代入了,可以令

U ˜ = H k U, V ˜ = H k V

這樣，對於每一維

u ˜ i = H k u i, v ˜ i = H k v i, i = 1, 2

H k + 1 \leftarrow H k - H k U C - 1 V T H k = H k - U ˜ C - 1 V ˜ T = H k + 1 α (- u ˜ 1 v ˜ T 1) - β α 2 u ˜ 2 v T 2 = H k - H k y k s T k + s k y T k H k s T k y k + s k s T k s T k y k (1 + y T k H k y k s T k y k)

整理就得到BFGS的一般式了

DFP

DFP推導方法和BFGS類似，只不過是對hesse矩陣的逆進行近似,略。

LBFGS

關於LBFGS的推導，可以參考【3】和【4】，主要是通過BFGS的最後目標式子，不再保留完整的矩陣B_k^{-1}，因爲當維度很大的時候（n>10^4），需要的空間非常大，所以保留了一些計算B−1k 需要的sk,yk 序列，而且只保存最近的m個序列。
這裏不妨用Hk 表示B−1k ,非hesse矩陣.

H k + 1 = (I - s k y T k y T k s k) H k (I - y k s T k y T k s k) + s k s T k y T k s k

define:

ρk=1yTksk ,

Vk=I−ρkyksTk ,then the above formulation can be rewritten as:

H k + 1 = V T k H k V k + ρ k s k s T k

Then,recursively

H 1 = V T 0 H 0 V 0 + ρ 0 s 0 s T 0

H 2 = = = V T 1 H 1 V 1 + ρ 1 s 1 s T 1 V T 1 (V T 0 H 0 V 0 + ρ 0 s 0 s T 0) V 1 + ρ 1 s 1 s T 1 V T 1 V T 0 H 0 V 0 V 1 + V T 1 ρ 0 s 0 s T 0) V 1 + ρ 1 s 1 s T 1

所以就有了這個公式：

H k + 1 = + + + + (V T k V T k - 1 . . . V T 1 V T 0) H 0 (V 0 V 1 . . . V k - 1 V k) (V T k V T k - 1 . . . V T 1) ρ 1 s 1 s T 1 (V 1 . . . V k - 1 V k) . . . (V T k) ρ k - 1 s k - 1 s T k - 1 (V k) ρ k s k s T k

然後爲了算這個式子，需要不斷迭代LBFGS原著中給了一個兩層的遞推程序求這個式子，只保留最近m步：

H k + 1 = + + . . . + + (V T k V T k - 1 . . . V T k - m) H 0 (V k - m . . . V k - 1 V k) (V T k V T k - 1 . . . V T k - m + 1) ρ k - m s k - m s T k - m (V k - m + 1 . . . V k - 1 V k) (V T k) ρ k - 1 s k - 1 s T k - 1 (V k) ρ k s k s T k

更新的方向：

H k + 1 \nabla f (x) = + + + + (V T k V T k - 1 . . . V T k - m) H 0 (V k - m . . . V k - 1 V k) \nabla f (x) (V T k V T k - 1 . . . V T k - m + 1) ρ k - m s k - m s T k - m (V k - m + 1 . . . V k - 1 V k) \nabla f (x) . . . (V T k) ρ k - 1 s k - 1 s T k - 1 (V k) \nabla f (x) ρ k s k s T k \nabla f (x)

所謂的Two-loop算法：

qk←∇f(xk)
對
i=k−1 to k−m
αi=ρisTiqi+1
qi=qi+1−αiyi
然後第二次循環，
根據 wiki LBFGS 【5】
H0=yTk−1sk−1yTk−1yk−1
初始化：rk−m−1=H0qk−m
對於 i=k−m,k−m+1 to k−1
βi=ρiyTiri−1
ri=ri−1+si(αi−βi)
最後得到的r 即爲所求。上面的q以及 r都只有最後一步結果，中間結果的可以用一個變量代替。

參考：
【1】http://blog.csdn.net/lilyth_lilyth/article/details/8973972
【2】統計學習方法
【3】http://blog.csdn.net/lansatiankongxxc/article/details/38801863
【4】http://blog.csdn.net/zhirom/article/details/38332111
【5】http://en.wikipedia.org/wiki/Limited-memory_BFGS
【6】http://en.wikipedia.org/wiki/Woodbury_matrix_identity
【7】http://www.ing.unitn.it/~bertolaz/2-teaching/2004-2005/AA-2004-2005-PHD/lucidi/slides-mQN-1x2.pdf
【8】http://www.iaeng.org/publication/WCE2012/WCE2012_pp1-5.pdf

lansatiankong

發佈了111 篇原創文章 · 獲贊 86 · 訪問量 26萬+

私信關注

無約束最優化方法——牛頓法、擬牛頓法、BFGS、LBFGS

【最速下降法】

【牛頓法】

擬牛頓法

SR1

BFGS

DFP

LBFGS

linux安裝cuda和cudnn

測試人員都是畫畫大神，讓我看看誰還不會用代碼圖？

Object.values()對象遍歷

我拍了拍Redis，被移出了羣聊···

網絡現代化通向雲原生應用的高速公路

面試官：說說你對序列化的理解

我宣佈，這是我找到的史上AI最全論文體系！

CVPR 2015 paper 下載

Matlab中的類定義 classdef

EM算法原理詳解與高斯混合模型

優化中的subgradient方法

整理——Some basic questions about caffe and deep learning

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結