梯度下降（Gradient Descent）

原創

JimmyCM

2020-02-26 11:49

梯度下降

考虑一个无约束的，平滑的凸优化问题
$\min_x f(x)$

其中， $f$ 是凸函数，且在定义域 $dom(f)=R^n$ 上是可微的。

算法

选择一个初始点 $x^{(0)}\in R^n$ ，重复操作：
$x^{(k)} = x^{(k-1)} - t_k \cdot \nabla f(x^{(k-1)}),\ k=1,2,3.,..$

直到达到某阈值后停止。梯度下降法就是沿着梯度减小的方向，每次走一定的步长，直到到达最优点为止。

梯度下降的解释

在每一次迭代中，对当前点做二次泰勒展开：
$f(y)\approx f(x)+\nabla f(x)^T(y-x)+\frac{1}{2t}\|y-x\|^2_2$

这里用 $\frac{1}{t}I$ 代替了二次项系数海森矩阵 $\nabla^2 f(x)$ 。
选择下一个点 $y=x^+$ 去最小化该二次近似可以得到：
$x^+=x-t\nabla f(x)$

所以，梯度下降相当于在函数的每个点处都做二次近似，然后求解最小点的位置。

步长的选择

既然梯度下降每次迭代都要走一定的步长，那这个步长要怎么选择呢？
一种简单的方式是把步长固定，每次都移动常数距离， $t_k=t,\ for\ all\ k=1,2,3,...$ 。但是这样存在问题，如果 $t$ 太大，梯度下降可能会发散而不收敛；如果 $t$ 太小，梯度下降就会收敛很慢。只有 $t$ 选得“刚好”时，才能兼顾收敛性和收敛速度。另一种方法可以自适应地调整步长——回溯线性搜索

回溯线性搜索

首先固定参数 $0<\beta<1$ 和 $0<\alpha\leq 1/2$
在每次迭代中，首先设置 $t=t_{init}$ ，然后只要：
$f(x-t\nabla f(x))>f(x)-\alpha t \|\nabla f(x)\|^2_2$ 就收缩 $t=\beta t$
重复步骤2，直到满足条件为止。然后进行梯度下降更新：
$x^+=x-t\nabla f(x)$

在实践中可以进一步简化 $\alpha=1/2$ 。

收敛性分析

已知 $f$ 是凸函数，且在定义域 $dom(f)=R^n$ 上是可微的。而且 $\nabla f$ 是关于常数 $L>0$ Lipschitz连续的：
$\|\nabla f(x)-\nabla f(y)\|_2 \leq L\|x-y\|_2\quad for\ any\ x,y$ （或者说二次微分 $\nabla ^2f(x) \preceq LI$ ）
那么，梯度下降有 $O(1/k)$ 的收敛率， $k$ 为迭代次数。也就是说，在 $O(1/\epsilon)$ 次迭代后，可以找到 $\epsilon$ 误差的次优点。
如果 $f$ 是强凸的，即存在 $m>0$ ，使得 $f(x)-\frac{m}{2}\|x\|^2_2$ 是凸的（或者说二次微分 $\nabla ^2f(x) \succeq mI$ ），那么收敛率将会达到指数收敛率 $O(\gamma ^k)$ ， $0<\gamma<1$ 。也就是说，在 $O(log(1/\epsilon))$ 次迭代后，可以找到 $\epsilon$ 误差的次优点。

优缺点

优点

方法简单，每次迭代都很快；
对于良态的，强凸问题有很快的收敛速度。

缺点

由于许多问题是非强凸或良态的，因此梯度下降往往需要很多次迭代，收敛速度很慢；
不能应对不可微的函数。

在非凸问题上的分析

假设 $f$ 是可微的，且 $\nabla f$ 是Lipschitz连续的，但是非凸的。在这种情况下，我们不再寻找最优点，而是寻找稳定点解，那么梯度下降有 $O(1/\sqrt{k})$ （或 $O(1/\epsilon^2)$ ）的收敛率。

参考资料

CMU：Convex Optimization

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

梯度下降（Gradient Descent）

梯度下降

算法

梯度下降的解释

步长的选择

回溯线性搜索

收敛性分析

优缺点

在非凸问题上的分析

参考资料

容器中nginx无法使用同一个网络下的容器域名

Python: SunMoonTimeCalculator

NETCore中实现一个轻量无负担的极简任务调度ScheduleTask

docker使用特定的网络

使用c#强大的表达式树实现对象的深克隆之解决循环引用的问题

「Pygors跨平台GUI」2：安装MinGW-w64、MSYS2还是WSL2

「Pygors跨平台GUI」1：Pygors跨平台GUI应用研究

nodejs学习07——API

避免DbContext同时在多个线程调用

GPT-4o 引领人机交互新风向，向量数据库赛道沸腾了

線性規劃中的對偶（Duality in linear programs）

次梯度（Subgradients）

KKT條件（Karush-Kuhn-Tucker Conditions）

凸優化中的對偶（Duality in General Programs）

隨機梯度下降（Stochastic gradient descent）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結