漫步最優化八——梯度信息






便


——

在許多優化方法中,需要目標函數的梯度信息,這個信息由f(x)n 個變量的一階與二階導組成的。

如果f(x)C1 ,即f(x) 有連續的一階偏導,f(x) 的梯度定義爲:

g(x)=[fx1 fx2  fxn]T=f(x)

其中

=[x1 x2  xn]T

如果f(x)C2 ,即f(x) 有連續的二階偏導,f(x) 的海森矩陣定義爲:

H(x)=gT={Tf(x)}

因此海森矩陣可以寫爲:

H(x)=2fx212fx2x12fxnx12fx1x22fx222fxnx22fx1xn2fx2xn2fx2n

對函數f(x)C2

2fxixj=2fxjxi

這是因爲求導是線性運算,由此可得H(x)n×n 對稱方陣。

x=xk 處的梯度與海森矩陣用g(xk),H(xk) 表示,或者用簡化的符號gk,Hk 表示。有時候在不至於混淆的前提下,g(x),H(x) 簡化成g,H

梯度與海森矩陣簡化了優化過程,但是在某些應用中求解他們非常耗時且代價比較大,或者f(x) 無法求偏導,對於這種應用,最好用不需要求梯度的方法。

梯度方法,即基於梯度信息的方法可能只需要g(x) 或者g(x),H(\textbf{x}) 都需要,對於後者,可能需要求解矩陣H(x) 的逆,這會帶來數值精確性問題且很耗時,一般我們會避免這種方法。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章