最優化方法 21：加速近似梯度下降方法

我們證明了梯度方法最快的收斂速度只能是 $O(1/k^2)$ （沒有強凸假設的話），但是前面的方法最多隻能達到 $O(1/k)$ 的收斂速度，那麼有沒有方法能達到這一極限呢？有！這一節要講的**加速近似梯度方法(APG)**就是。這個方法的構造非常的巧妙，證明過程中會發現每一項都恰到好處的抵消了！真不知道作者是怎麼想出來這麼巧妙地方法，各位可以看看證明過程自行體會。

1. 加速近似梯度方法

首先說我們要考慮的優化問題形式還是
$\text{minimize }\quad f(x)=g(x)+h(x)$
其中 $g$ 爲光滑項， $\text{dom }g=R^n$ ， $h$ 爲不光滑項，且爲閉的凸函數，另外爲了證明梯度方法的收斂性，跟前面類似，我們需要引入 Lipschitz-smooth 條件與強凸性質：
$\frac{L}{2}x^Tx-g(x),\quad g(x)-\frac{m}{2}x^Tx \quad \text{convex}$
其中 $L>0,m\ge0$ ， $m$ 可以等於 0，此時就相當於沒有強凸性質。

然後我們就來看看 APG(Accelerated Proximal Gradient Methods) 方法到底是怎麼下降的。首先取 $x_0=v_0,\theta_0\in(0,1]$ ，對於每次迭代過程，包括以下幾個步驟：

求 $\theta_k$ ： $\frac{\theta_{k}^{2}}{t_{k}}=\left(1-\theta_{k}\right) \gamma_{k}+m \theta_{k} \quad \text { where } \gamma_{k}=\frac{\theta_{k-1}^{2}}{t_{k-1}}$

更新 $x_k,v_k$ ：

$\begin{aligned} y &=x_{k}+\frac{\theta_{k} \gamma_{k}}{\gamma_{k}+m \theta_{k}}\left(v_{k}-x_{k}\right) \quad\left(y=x_{0} \text { if } k=0\right) \\ x_{k+1} &=\operatorname{prox}_{t_{k} h}\left(y-t_{k} \nabla g(y)\right) \quad(\bigstar)\\ v_{k+1} &=x_{k}+\frac{1}{\theta_{k}}\left(x_{k+1}-x_{k}\right) \end{aligned}$

這裏面的關鍵就是上面的 $(\bigstar)$ 式，對比前面講過的近似梯度下降法實際上是
$x_{k+1} =\operatorname{prox}_{t_{k} h}\left(x_k-t_{k} \nabla g(x_k)\right)$
所以這裏實際上主要的變化就是將 $x_k$ 換成了 $y$ ，那麼 $y$ 跟 $x_k$ 又有什麼不同呢？
$y=x_{k}+\frac{\theta_{k} \gamma_{k}}{\gamma_{k}+m \theta_{k}}\left(v_{k}-x_{k}\right)=x_{k}+\beta_{k}\left(x_{k}-x_{k-1}\right) \\ \beta_{k}=\frac{\theta_{k} \gamma_{k}}{\gamma_{k}+m \theta_{k}}\left(\frac{1}{\theta_{k-1}}-1\right)=\frac{t_{k} \theta_{k-1}\left(1-\theta_{k-1}\right)}{t_{k-1} \theta_{k}+t_{k} \theta_{k-1}^{2}}$
可以看到 $y=x_{k}+\beta_{k}\left(x_{k}-x_{k-1}\right)$ 實際上就是在 $x_k$ 的基礎上增加了一個**“動量(Momentum)”**，如下圖所示

我們自然的要關注 $\beta_k,\theta_k$ 的大小以及有什麼性質。首先對於參數 $\theta_k$ 它是根據二次方程一步步迭代出來的
$\frac{\theta_{k}^{2}}{t_{k}}=\left(1-\theta_{k}\right) \frac{\theta_{k-1}^{2}}{t_{k-1}}+m \theta_{k}$
可以有幾個主要結論：

如果 $m>0$ 且 $\theta_0=\sqrt{mt_0}$ ，那麼有 $\theta_k=\sqrt{mt_k},\forall k$
如果 $m>0$ 且 $\theta_0\ge\sqrt{mt_0}$ ，那麼有 $\theta_k\ge\sqrt{mt_k},\forall k$
如果 $mt_k<,$ ，那麼有 $\theta_k<1$

下面可以看幾個關於 $\theta_k,\beta_k$ 隨着迭代次數 $k$ 的變化：

如果我們取前面的 APG 方法中的 $m=0$ ，然後消掉中間變量 $v_k$ ，就可以得到 FISTA(Fast Iterative Shrinkage-Thresholding Algorithm) 算法
$\begin{aligned} y &=x_{k}+\theta_{k}\left(\frac{1}{\theta_{k-1}}-1\right)\left(x_{k}-x_{k-1}\right) \quad\left(y=x_{0} \text { if } k=0\right) \\ x_{k+1} &=\operatorname{prox}_{t_{k} h}\left(y-t_{k} \nabla g(y)\right) \end{aligned}$

2. 收斂性分析

前面已經瞭解了基本原理，下面需要證明一下爲什麼他可以達到 $O(1/k^2)$ 的收斂速度。作爲類比，我們先回憶一下之前是怎麼證明梯度方法/近似梯度方法的收斂性的？
$\begin{aligned}(GD)\quad& f\left(x^{+}\right)-f^{\star} \leq \nabla f(x)^{T}\left(x-x^{\star}\right)-\frac{t}{2}\|\nabla f(x)\|_{2}^{2}\\\Longrightarrow &f\left(x^{+}\right)-f^{\star} \leq\frac{1}{2 t}\left(\left\|x-x^{\star}\right\|_{2}^{2}-\left\|x^{+}-x^{\star}\right\|_{2}^{2}\right) \\(SD)\quad& 2 t\left(f(x)-f^{\star}\right) \leq\left\|x-x^{\star}\right\|_{2}^{2}-\left\|x^{+}-x^{\star}\right\|_{2}^{2}+t^{2}\|g\|_{2}^{2} \\(PD)\quad& f\left(x^+\right) \leq f(z)+G_{t}(x)^{T}(x-z)-\frac{t}{2}\left\|G_{t}(x)\right\|_{2}^{2}-\frac{m}{2}\|x-z\|_{2}^{2}\\\Longrightarrow &f\left(x^{+}\right)-f^{\star} \leq \frac{1}{2 t}\left(\left\|x-x^{\star}\right\|_{2}^{2}-\left\|x^{+}-x^{\star}\right\|_{2}^{2}\right)\end{aligned}$
對於這一節的 APG 方法，證明思路是首先證明下面的迭代式子成立
$f\left(x_{i+1}\right)-f^{\star}+\frac{\gamma_{i+1}}{2}\left\|v_{i+1}-x^{\star}\right\|_{2}^{2} \\\quad \leq \left(1-\theta_{i}\right)\left(f\left(x_{i}\right)-f^{\star}+\frac{\gamma_{i}}{2}\left\|v_{i}-x^{\star}\right\|_{2}^{2}\right) \quad \text { if } i\ge1$
對比後發現實際上之前我們考慮的是 $f(x^+)-f^\star$ 的迭代式子，而這裏我們加了一個小尾巴，考慮 $f(x^+)-f^\star + \frac{\gamma_{i+1}}{2}\left\|v_{i+1}-x^{\star}\right\|_{2}^{2}$ 的收斂速度。證明一會再說，有了這個迭代關係式，那麼就可以有
$\begin{aligned}f\left(x_{k}\right)-f^{\star} & \leq \lambda_{k}\left(\left(1-\theta_{0}\right)\left(f\left(x_{0}\right)-f^{\star}\right)+\frac{\gamma_{1}-m \theta_{0}}{2}\left\|x_{0}-x^{\star}\right\|_{2}^{2}\right) \\& \leq \lambda_{k}\left(\left(1-\theta_{0}\right)\left(f\left(x_{0}\right)-f^{\star}\right)+\frac{\theta_{0}^{2}}{2 t_{0}}\left\|x_{0}-x^{\star}\right\|_{2}^{2}\right)\end{aligned}$
其中 $\lambda_1=1$ ， $\lambda_{k}=\prod_{i=1}^{k-1}\left(1-\theta_{i}\right) \text { for } k>1$ ，如果能證明 $\lambda_k\sim O(1/k^2)$ 就能證明收斂速度了。好了，下面就是非常巧妙而又繁瑣的證明過程了。

這個證明過程很繁瑣，爲了更容易順下來，這裏列出來其中幾個關鍵的等式/不等式（爲了簡便省略了下標）：

$\gamma^+-m\theta=(1-\theta)\gamma$ （易證）
$\gamma^+v^+=\gamma ^+ v+ m\theta(y-v)-\theta G_t(y)$
$\begin{aligned} f\left(x^{+}\right)-f^{\star} \leq &(1-\theta)\left(f(x)-f^{\star}\right)-G_{t}(y)^{T}\left((1-\theta) x+\theta x^{\star}-y\right) -\frac{t}{2}\left\|G_{t}(y)\right\|_{2}^{2}-\frac{m \theta}{2}\left\|x^{\star}-y\right\|_{2}^{2} \end{aligned}$
$\begin{aligned} \frac{\gamma^{+}}{2}\left\|v^{+}-x^{\star}\right\|_{2}^{2} \leq & \frac{\gamma^{+}-m \theta}{2}\left\|v-x^{\star}\right\|_{2}^{2}+G_{t}(y)^{T}\left(\theta x^{\star}+(1-\theta) x-y\right) +\frac{t}{2}\left\|G_{t}(y)\right\|_{2}^{2}+\frac{m \theta}{2}\left\|x^{\star}-y\right\|_{2}^{2} \end{aligned}$

(3,4) 條結合就能得到上面的迭代關係式，很多項剛好消掉。下面就是要證明 $\lambda_k\sim O(1/k^2)$ ：
$\gamma_{k+1}=(1-\theta_k)\gamma_k+m\theta_k \\\lambda_{i+1}=\left(1-\theta_{i}\right) \lambda_{i}=\frac{\gamma_{i+1}-\theta_{i} m}{\gamma_{i}} \lambda_{i} \leq \frac{\gamma_{i+1}}{\gamma_{i}} \lambda_{i} \Longrightarrow \lambda_k\le \gamma_k/\gamma_1 \\\frac{1}{\sqrt{\lambda_{i+1}}}- \frac{1}{\sqrt{\lambda_{i}}} \ge \frac{\theta_i}{2\sqrt{\lambda_{i+1}}}=\frac{1}{2}\sqrt{\gamma_1t_i}$
然後就可以有
$\lambda_{k} \leq \frac{4}{\left(2+\sqrt{\gamma_{1}} \sum_{i=1}^{k-1} \sqrt{t_{i}}\right)^{2}}=\frac{4 t_{0}}{\left(2 \sqrt{t_{0}}+\theta_{0} \sum_{i=1}^{k-1} \sqrt{t_{i}}\right)^{2}}$
如果取 $t_0=t_k=1/L,\theta_0=1$ ，則有
$\lambda_k\le \frac{4}{(k+1)^2}$
如果有強凸性質，也即 $m>0$ ，那麼取 $\theta_0\ge\sqrt{mt_0}\Longrightarrow \theta_k\ge \sqrt{mt_k}$
$\lambda_k \le \Pi_{i=1}^{k-1}(1-\sqrt{mt_i})$
這就可以變成線性收斂了。

最後給我的博客打個廣告，歡迎光臨
https://glooow1024.github.io/
https://glooow.gitee.io/

前面的一些博客鏈接如下
凸優化專欄
 凸優化學習筆記 1：Convex Sets
凸優化學習筆記 2：超平面分離定理
 凸優化學習筆記 3：廣義不等式
 凸優化學習筆記 4：Convex Function
凸優化學習筆記 5：保凸變換
 凸優化學習筆記 6：共軛函數
 凸優化學習筆記 7：擬凸函數 Quasiconvex Function
凸優化學習筆記 8：對數凸函數
 凸優化學習筆記 9：廣義凸函數
 凸優化學習筆記 10：凸優化問題
 凸優化學習筆記 11：對偶原理
 凸優化學習筆記 12：KKT條件
 凸優化學習筆記 13：KKT條件 & 互補性條件 & 強對偶性
 凸優化學習筆記 14：SDP Representablity
最優化方法 15：梯度方法
 最優化方法 16：次梯度
 最優化方法 17：次梯度下降法
 最優化方法 18：近似點算子 Proximal Mapping
最優化方法 19：近似梯度下降
 最優化方法 20：對偶近似點梯度下降法
 最優化方法 21：加速近似梯度下降方法
 最優化方法 22：近似點算法 PPA
最優化方法 23：算子分裂法 & ADMM
最優化方法 24：ADMM

最優化方法 21：加速近似梯度下降方法

1. 加速近似梯度方法

2. 收斂性分析

凸優化學習筆記 15：梯度方法

最優化方法 23：算子分裂法 & ADMM

最優化方法 22：近似點算法 PPA

最優化方法 18：近似點算子 Proximal Mapping

凸優化學習筆記 2：超平面分離定理

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結