不見你會想你,
想隨時獻殷勤,希望你像蜜桃般甜美;
想閱讀更多書,期待你我能賭書潑茶。
我想我們已互相知道對方的心意,
即便相隔萬裏也能感受到遠方心中的牽掛。
希望我們互相是對的人,
一直彼此寵愛。
——暢寶寶的傻逼哥哥
在許多優化方法中,需要目標函數的梯度信息,這個信息由f(x) 對n 個變量的一階與二階導組成的。
如果f(x)∈C1 ,即f(x) 有連續的一階偏導,f(x) 的梯度定義爲:
g(x)=[∂f∂x1 ∂f∂x2 ⋯ ∂f∂xn]T=∇f(x)
其中
∇=[∂∂x1 ∂∂x2 ⋯ ∂∂xn]T
如果f(x)∈C2 ,即f(x) 有連續的二階偏導,f(x) 的海森矩陣定義爲:
H(x)=∇gT=∇{∇Tf(x)}
因此海森矩陣可以寫爲:
H(x)=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢∂2f∂x21∂2f∂x2∂x1⋮∂2f∂xn∂x1∂2f∂x1∂x2∂2f∂x22⋮∂2f∂xn∂x2⋯⋯⋯∂2f∂x1∂xn∂2f∂x2∂xn⋮∂2f∂x2n⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥
對函數f(x)∈C2
∂2f∂xi∂xj=∂2f∂xj∂xi
這是因爲求導是線性運算,由此可得H(x) 是n×n 對稱方陣。
點x=xk 處的梯度與海森矩陣用g(xk),H(xk) 表示,或者用簡化的符號gk,Hk 表示。有時候在不至於混淆的前提下,g(x),H(x) 簡化成g,H 。
梯度與海森矩陣簡化了優化過程,但是在某些應用中求解他們非常耗時且代價比較大,或者f(x) 無法求偏導,對於這種應用,最好用不需要求梯度的方法。
梯度方法,即基於梯度信息的方法可能只需要g(x) 或者g(x),H(\textbf{x}) 都需要,對於後者,可能需要求解矩陣H(x) 的逆,這會帶來數值精確性問題且很耗時,一般我們會避免這種方法。