下降方法

在这一部分我们的目标是求出凸函数的最小值。一般来说,只要我们能解出方程\(\nabla f(x)=0\)我们就能求出最小值点。然而很多时候这一方程的封闭解是不存在的,这要求我们用其它的手段来求最小值。在线性规划的单纯形法中我们注意到每次移动到一个更优值最终能保证我们找到最优解,那在非线性的凸优化中是否存在一个类似的方法?这就是下降方法,我们每次都找到一个更小的值,期待我们最终找到最优值。

梯度下降

\(f(x_0)\)处,\(-\nabla f(x_0)\)的方向是函数值下降最快的方向,因此我们能保证每次往负梯度方向移动一小步函数值是一定会下降的,因此我们期待反复迭代这一过程最终得到最小值。然而步长的确定是一个困难的工作,步长太长会导致反复横跳,步长太短会导致无法收敛到最小值。我们无法对于任意函数给出一个选取最优步长的公式,但我们可以讨论当函数满足一些特殊的性质时,我们能给出步长选取的方法。

当函数满足对于任意\(x,y\)\(\|\nabla f(x)-\nabla f(y)\| \leq L\|x-y\|\)时称\(f\)\(L-\)smooth函数(这个条件还等价于\(\nabla^2 f(x)\)的最大特征值的绝对值不超过\(L\),也等价于\(|f(y)-f(x)-\lang \nabla f(x),y-x\rang| \leq \dfrac{L}{2}\|y-x\|^2\)恒成立),此时它的一阶导变化不会太快。此时取步长\(\eta \leq \dfrac{1}{L}\),我们能够证明取\(x_{k+1}=x_k-\eta\nabla f(x_k)\),则有\(f(x_{k+1})\leq f(x_k)-\dfrac{t}{2}\|\nabla f(x_k)\|^2\)成立。这称为下降引理,选取这样的步长我们能保证函数值不断下降,收敛到最小值。

(没写完)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章