下降方法

在這一部分我們的目標是求出凸函數的最小值。一般來說,只要我們能解出方程\(\nabla f(x)=0\)我們就能求出最小值點。然而很多時候這一方程的封閉解是不存在的,這要求我們用其它的手段來求最小值。在線性規劃的單純形法中我們注意到每次移動到一個更優值最終能保證我們找到最優解,那在非線性的凸優化中是否存在一個類似的方法?這就是下降方法,我們每次都找到一個更小的值,期待我們最終找到最優值。

梯度下降

\(f(x_0)\)處,\(-\nabla f(x_0)\)的方向是函數值下降最快的方向,因此我們能保證每次往負梯度方向移動一小步函數值是一定會下降的,因此我們期待反覆迭代這一過程最終得到最小值。然而步長的確定是一個困難的工作,步長太長會導致反覆橫跳,步長太短會導致無法收斂到最小值。我們無法對於任意函數給出一個選取最優步長的公式,但我們可以討論當函數滿足一些特殊的性質時,我們能給出步長選取的方法。

當函數滿足對於任意\(x,y\)\(\|\nabla f(x)-\nabla f(y)\| \leq L\|x-y\|\)時稱\(f\)\(L-\)smooth函數(這個條件還等價於\(\nabla^2 f(x)\)的最大特徵值的絕對值不超過\(L\),也等價於\(|f(y)-f(x)-\lang \nabla f(x),y-x\rang| \leq \dfrac{L}{2}\|y-x\|^2\)恆成立),此時它的一階導變化不會太快。此時取步長\(\eta \leq \dfrac{1}{L}\),我們能夠證明取\(x_{k+1}=x_k-\eta\nabla f(x_k)\),則有\(f(x_{k+1})\leq f(x_k)-\dfrac{t}{2}\|\nabla f(x_k)\|^2\)成立。這稱爲下降引理,選取這樣的步長我們能保證函數值不斷下降,收斂到最小值。

(沒寫完)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章