凸优化中的对偶(Duality in General Programs)

Intorduction

在上节中,我们讨论了线性规划中的对偶,引入了对偶的基本概念和对偶的两种解释。对偶相当于给当前的优化问题找到了一个下界,通过提升这个下界来找到原问题的最优解。本节将进一步介绍对偶在一般规划问题中的推广。

拉格朗日对偶函数

考虑一般的最小化问题:
minxf(x)subject tohi(x)0, i=1,...,mli(x)=0, j=1,...,r \begin{aligned} \min_{x}\quad &f(x)\\ {\rm subject\ to}\quad &h_i(x)\leq 0,\ i=1,...,m\\ &l_i(x)=0,\ j=1,...,r \end{aligned}

这里不需要一定是凸函数,当然我们主要研究凸函数的情况。我们定义拉格朗日方程(Lagrangian)为:
L(x,u,v)=f(x)+i=1muihi(x)+j=1rvili(x)L(x,u,v)=f(x)+\sum^m_{i=1}u_ih_i(x)+\sum^r_{j=1}v_il_i(x)

新变量uRm,vRru\in R^m, v\in R^r,且u0u\geq 0。其一个重要的特性是,对于所有可行点xx
f(x)L(x,u,v)f(x)\geq L(x,u,v)

正如上节所示,如果CC表示原问题的可行域,ff^*表示原问题的最优解,那么对于任意uuv0v\geq 0
fminxCL(x,u,v)minxL(x,u,v):=g(u,v)f^*\geq \min_{x\in C}L(x,u,v)\geq \min_x L(x,u,v):=g(u,v)

我们称g(u,v)g(u,v)为拉格朗日对偶函数(Lagrange dual function)。它给出了ff^*的一个下限。其中,u0u\geq 0vv称之为对偶变量。

例子:二次规划
考虑二次规划问题::
minx12xTQx+cTxsubject toAx=b, x0 \begin{aligned} \min_{x}\quad &\frac{1}{2}x^TQx+c^Tx\\ {\rm subject\ to}\quad &Ax=b,\ x\geq 0 \end{aligned}

其中,Q0Q\succ 0。拉格朗日方程为:
L(x,u,v)=12xTQx+cTxuTx+vT(Axb)L(x,u,v)=\frac{1}{2}x^TQx+c^Tx-u^Tx+v^T(Ax-b)

拉格朗日对偶函数为:
g(u,v)=minxL(x,u,v)=12(cu+ATv)TQ1(cu+ATv)bTvg(u,v)=\min_x L(x,u,v)=-\frac{1}{2}(c-u+A^Tv)^TQ^{-1}(c-u+A^Tv)-b^Tv

对于任意u0u\geq 0vvg(u,v)g(u,v)作为下界约束着原函数最优解ff^*的取值。

拉格朗日对偶问题

已知对于任意u0u\geq 0vvfg(u,v)f^*\geq g(u,v)。因此最好的下界是:在u,vu,v可行域上最大化g(u,v)g(u,v)。这就得到了拉格朗日对偶问题(Lagrange dual problem):
maxu,vg(u,v)subject tou0 \begin{aligned} \max_{u,v}\quad &g(u,v)\\ {\rm subject\ to}\quad &u\geq 0 \end{aligned}

一个关键的性质称为弱对偶(weak duality):如果对偶最优解为gg^*,那么fgf^*\geq g^*
另一个关键性质是:对偶问题总是凸优化问题
无论原问题是不是凸的,这两个性质总是成立的。

强对偶

弱对偶告诉我们fgf^*\geq g^*总是成立的。而在一些问题中,我们可以得到f=gf^*=g^*,该性质称之为强对偶。

Slater条件

Slater’s condition: 如果原问题是凸优化问题(即ffh1,...,hmh_1,...,h_m是凸函数,l1,...,lrl_1,...,l_r是放射函数),那么至少存在一个严格可行点xRnx\in R^n,即
h1(x)<0,...,hm(x)<0h_1(x)<0,...,h_m(x)<0l1(x)=0,...,lr(x)=0l_1(x)=0,...,l_r(x)=0满足强对偶。

可以验证的是,对于线性规划问题,LP对偶的对偶就是原LP问题。且LP问题总是有强对偶性。

例子:支持向量机
给定y{1,1}ny\in \{-1,1\}^nXRn×pX\in R^{n\times p}有行向量x1,...,xnx_1,...,x_n,则支持向量机(SVM)定义为:
minβ,β0,ξ12β22+Ci=1nξisubject toξi0, i=1,...,nyi(xiTβ+β0)1ξi, i=1,...,n \begin{aligned} \min_{\beta,\beta_0,\xi}\quad &\frac{1}{2}\|\beta\|^2_2+C\sum^n_{i=1}\xi_i\\ {\rm subject\ to}\quad & \xi_i\geq 0,\ i=1,...,n\\ &y_i(x_i^T\beta + \beta_0) \geq1-\xi_i,\ i=1,...,n \end{aligned}

引入对偶变量v,w0v,w\geq 0,可以得到拉格朗日方程:
L(β,β0,ξ,v,w)=12β2+Ci=1nξii=1nviξi+i=1nwi(1ξiyi(xiTβ+β0))L(\beta, \beta_0, \xi, v, w)=\frac{1}{2}\|\beta\|^2+C\sum^n_{i=1}\xi_i-\sum^n_{i=1}v_i\xi_i+\sum^n_{i=1}w_i(1-\xi_i-y_i(x^T_i\beta + \beta_0))

则拉格朗日对偶函数为:
minβ,β0,ξL=g(v,w)={12wTX~X~Tw+1Twif w=C1v, wTy=0otherwise \min_{\beta,\beta_0,\xi}L = g(v,w)=\left\{ \begin{aligned} &-\frac{1}{2}w^T\tilde{X}\tilde{X}^Tw+1^Tw &{\rm if}\ w=C1-v,\ w^Ty=0\\ &-\infty &otherwise \end{aligned} \right.

其中,X~=diag(y)X\tilde{X}={\rm diag}(y)X。因此,SVM的对偶问题消除了松弛变量vv
maxw12wTX~X~Tw+1Twsubject to0wC1, wTy=0 \begin{aligned} \max_{w}\quad &-\frac{1}{2}w^T\tilde{X}\tilde{X}^Tw+1^Tw\\ {\rm subject\ to}\quad &0\leq w\leq C1,\ w^Ty=0 \end{aligned}

可以看到,Slater条件是满足的,因而SVM是有强对偶性的。

对偶间隙

给定原变量xx和对偶变量u,vu,v,则f(x)g(u,v)f(x)-g(u,v)称为对偶间隙(duality gap)。注意到f(x)ff(x)g(u,v)f(x)-f^*\leq f(x)-g(u,v),所以当对偶间隙为0时,xx就是原问题的最优解(同时,u,vu,v也是对偶问题的最优解)。
从算法角度来看,只要给定一个停止阈值:f(x)g(u,v)ϵf(x)-g(u,v)\leq \epsilon,那么就可以保证f(x)fϵf(x)-f^*\leq \epsilon

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章