最优化理论与算法-ADMM的先导知识

原創

Titus_1996

2020-04-25 02:57

ADMM结合了对偶更新和拉格朗日乘子的优缺点。

对偶问题

以凸等式约束优化问题为例：
目标函数： $\min{f(x)}$ $subject$ $to$ $Ax=b$
那么它的拉格朗日函数为： $L(x, \lambda)=f(x)+\lambda(Ax-b)$

其对偶式为： $g(\lambda) = inf_x{L(x, \lambda)}$ ,其中 $inf_x$ 指的是给定一个 $x$ ，求 $g(\lambda)$ 函数的上界。既然给定了 $x$ ，就不再是 $x$ 的函数了，相对于 $\lambda$ 就是常数，这就是为什么是求 $g(\lambda)$ 的函数。所以对偶问题为：
$\max{g(\lambda)}$

对偶上升

在前面我们讲的最速梯度下降和牛顿法都是通过梯度下降来求最优解。为什么？因为那是求解凸函数。看到这里的“上升”，你能想到什么？对！解决的是凹函数。上面的对偶问题 $\max{g(\lambda)}$ 是一个凹函数。
因此，迭代更新的过程为：
$\lambda^{k+1}=\lambda^{k}+\alpha^{k}\Delta{g(\lambda^k)}$ ，其中 $\Delta{g(y^k)}=A\tilde{x}-b$ where $\tilde{x}=\underset{x}{\argmin}{L(x, \lambda^{k})}$

首先，优化主问题： $x^{k+1}=\underset{x}{\argmin}{L(x, \lambda^{k})}$
然后对偶更新: $\lambda^{k+1}=\lambda^{k}+\alpha^{k}({Ax^{k+1}-b})$

对偶分解

再依次把目标函数拿出来：
$\min{f(x)}$ $subject$ $to$ $Ax=b$
实际上， $x$ 很有可能是多变量，因此我们做一次推广，即 $x=(x_1,x_2,......x_n)$ 。当然 $x_i$ 也可以是向量或矩阵。

对于这么一个求多变量的函数极值问题，我们希望可以将其分解不同单变量的函数叠加，就像谐波分解一样。因此，假设 $f(x)$ 可分解: $f(x)=f_1(x_1)+f_2(x_2)+......+f_n(x_n)$

那么，我们将式子重新带入拉格朗日函数：
$L(x, \lambda)=f_1(x_1)+\lambda_1(A_1x_1-b)+f_2(x_2)+\lambda_2(A_2x_2-b)+......+f_n(x_n)+\lambda_n(A_nx_n-b)$

因此， $L(x_i, \lambda_i)=f_i(x_i)+\lambda^{T}A_ix_i$
从而，求主问题，从上面的单变量变成了:
$x^{k+1}_i=\underset{x_i}{\argmin}{L(x_i, \lambda^{k})}$ , 这不就是上面单变量的对偶上升法的主问题嘛！由于x是相互独立的，因此就可以并行计算。

那么，函数可分解可以将原问题分成许多子问题。那么能够这样做有什么限制吗？那就是约束条件一定要是线性的（这里可以联想信号与系统中判断系统是否是线性）。我们知道增广拉格朗日函数是在拉格朗日函数基础上加了一个二次项，二次项是增加凸性，但破坏了拉格朗日函数的可分解特性，原因就在于此，对两者的对比可以查看此文章。

那么，优化步骤变成了（对比对偶上升）：
原问题（子问题）: $x^{k+1}_i=\underset{x_i}{\argmin}{L_i(x_i, \lambda^{k})}$ ， $i = 1,.......n$
对偶更新: $\lambda^{k+1}=\lambda^{k}+\alpha^{k}({\sum_{i=1}^{n}A_ix^{k+1}_i-b})$

总而言之，对偶分解是在对耦上升基础上更进一步，将主问题分解成子问题求解。对于每个子问题，其实就是对偶上升求解的。

这种分解方式可以使得并行计算，从而加速收敛，但是对偶上升的缺点并没有得到解决：对偶更新的时候只是用了一阶信息，而一阶鲁棒性很差，从最速梯度下降法我们知道，这种最速梯度上升法同样很依赖学习率 $\alpha^k$ ，而且越到收敛点梯度 ${\sum_{i=1}^{n}A_ix^{k+1}_i-b}$ 越接近0，因此更新得越来越慢（可参见这篇文章）

怎么解决？就是在原来的拉格朗日函数的基础上加上一个二次约束项： $L_p(x, \lambda)=f(x)+\lambda^{T}(Ax-b)+\frac{\rho}{2}\left \| Ax-b\right \|^2_2$ ，这可以提高收敛的鲁棒性。

引入二次项破坏了拉格朗日乘子可分解性，无法使用对偶分解。而要使用对偶分解又只能是线性约束，而这个问题就可以使用ADMM来解决。我在另一篇博文已经有过分享！

这篇博文就当一个先导内容的介绍吧!

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

最优化理论与算法-ADMM的先导知识

对偶问题

对偶上升

对偶分解

PDManer [元数建模]-v4.9.0 发布：一款简单好用的数据库建模平台

使用neovim打造go ide(支持代码跳转, 代码补全, 实时语法检查)

sql求连续值问题

cs01 CSS Syntax

挑战程序设计竞赛 2.3章习题 poj 3046 Ant Counting

[MASM拾遗]Offset伪指令

h30 HTML Layout Elements

了解显卡

一款基于C#开发的通讯调试工具（支持Modbus RTU、MQTT调试）

Linux/Golang/glibC系统调用

最優化理論-線搜法(Line Search Methods)

理解ADMM, ALF和Split Bregman

最優化理論-2-梯度下降法

最優化理論3-牛頓法

接收字符串

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結