梯度下降（Gradient Descent）

原創

JimmyCM

2020-02-26 11:49

梯度下降

考慮一個無約束的，平滑的凸優化問題
$\min_x f(x)$

其中， $f$ 是凸函數，且在定義域 $dom(f)=R^n$ 上是可微的。

算法

選擇一個初始點 $x^{(0)}\in R^n$ ，重複操作：
$x^{(k)} = x^{(k-1)} - t_k \cdot \nabla f(x^{(k-1)}),\ k=1,2,3.,..$

直到達到某閾值後停止。梯度下降法就是沿着梯度減小的方向，每次走一定的步長，直到到達最優點爲止。

梯度下降的解釋

在每一次迭代中，對當前點做二次泰勒展開：
$f(y)\approx f(x)+\nabla f(x)^T(y-x)+\frac{1}{2t}\|y-x\|^2_2$

這裏用 $\frac{1}{t}I$ 代替了二次項係數海森矩陣 $\nabla^2 f(x)$ 。
選擇下一個點 $y=x^+$ 去最小化該二次近似可以得到：
$x^+=x-t\nabla f(x)$

所以，梯度下降相當於在函數的每個點處都做二次近似，然後求解最小點的位置。

步長的選擇

既然梯度下降每次迭代都要走一定的步長，那這個步長要怎麼選擇呢？
一種簡單的方式是把步長固定，每次都移動常數距離， $t_k=t,\ for\ all\ k=1,2,3,...$ 。但是這樣存在問題，如果 $t$ 太大，梯度下降可能會發散而不收斂；如果 $t$ 太小，梯度下降就會收斂很慢。只有 $t$ 選得“剛好”時，才能兼顧收斂性和收斂速度。另一種方法可以自適應地調整步長——回溯線性搜索

回溯線性搜索

首先固定參數 $0<\beta<1$ 和 $0<\alpha\leq 1/2$
在每次迭代中，首先設置 $t=t_{init}$ ，然後只要：
$f(x-t\nabla f(x))>f(x)-\alpha t \|\nabla f(x)\|^2_2$ 就收縮 $t=\beta t$
重複步驟2，直到滿足條件爲止。然後進行梯度下降更新：
$x^+=x-t\nabla f(x)$

在實踐中可以進一步簡化 $\alpha=1/2$ 。

收斂性分析

已知 $f$ 是凸函數，且在定義域 $dom(f)=R^n$ 上是可微的。而且 $\nabla f$ 是關於常數 $L>0$ Lipschitz連續的：
$\|\nabla f(x)-\nabla f(y)\|_2 \leq L\|x-y\|_2\quad for\ any\ x,y$ （或者說二次微分 $\nabla ^2f(x) \preceq LI$ ）
那麼，梯度下降有 $O(1/k)$ 的收斂率， $k$ 爲迭代次數。也就是說，在 $O(1/\epsilon)$ 次迭代後，可以找到 $\epsilon$ 誤差的次優點。
如果 $f$ 是強凸的，即存在 $m>0$ ，使得 $f(x)-\frac{m}{2}\|x\|^2_2$ 是凸的（或者說二次微分 $\nabla ^2f(x) \succeq mI$ ），那麼收斂率將會達到指數收斂率 $O(\gamma ^k)$ ， $0<\gamma<1$ 。也就是說，在 $O(log(1/\epsilon))$ 次迭代後，可以找到 $\epsilon$ 誤差的次優點。

優缺點

優點

方法簡單，每次迭代都很快；
對於良態的，強凸問題有很快的收斂速度。

缺點

由於許多問題是非強凸或良態的，因此梯度下降往往需要很多次迭代，收斂速度很慢；
不能應對不可微的函數。

在非凸問題上的分析

假設 $f$ 是可微的，且 $\nabla f$ 是Lipschitz連續的，但是非凸的。在這種情況下，我們不再尋找最優點，而是尋找穩定點解，那麼梯度下降有 $O(1/\sqrt{k})$ （或 $O(1/\epsilon^2)$ ）的收斂率。

參考資料

CMU：Convex Optimization

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

梯度下降（Gradient Descent）

梯度下降

算法

梯度下降的解釋

步長的選擇

回溯線性搜索

收斂性分析

優缺點

在非凸問題上的分析

參考資料

線性規劃中的對偶（Duality in linear programs）

次梯度（Subgradients）

KKT條件（Karush-Kuhn-Tucker Conditions）

凸優化中的對偶（Duality in General Programs）

隨機梯度下降（Stochastic gradient descent）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結