Intorduction
在上节中,我们讨论了线性规划中的对偶,引入了对偶的基本概念和对偶的两种解释。对偶相当于给当前的优化问题找到了一个下界,通过提升这个下界来找到原问题的最优解。本节将进一步介绍对偶在一般规划问题中的推广。
拉格朗日对偶函数
考虑一般的最小化问题:
xminsubject tof(x)hi(x)≤0, i=1,...,mli(x)=0, j=1,...,r
这里不需要一定是凸函数,当然我们主要研究凸函数的情况。我们定义拉格朗日方程(Lagrangian)为:
L(x,u,v)=f(x)+i=1∑muihi(x)+j=1∑rvili(x)
新变量u∈Rm,v∈Rr,且u≥0。其一个重要的特性是,对于所有可行点x,
f(x)≥L(x,u,v)
正如上节所示,如果C表示原问题的可行域,f∗表示原问题的最优解,那么对于任意u和v≥0,
f∗≥x∈CminL(x,u,v)≥xminL(x,u,v):=g(u,v)
我们称g(u,v)为拉格朗日对偶函数(Lagrange dual function)。它给出了f∗的一个下限。其中,u≥0和v称之为对偶变量。
例子:二次规划
考虑二次规划问题::
xminsubject to21xTQx+cTxAx=b, x≥0
其中,Q≻0。拉格朗日方程为:
L(x,u,v)=21xTQx+cTx−uTx+vT(Ax−b)
拉格朗日对偶函数为:
g(u,v)=xminL(x,u,v)=−21(c−u+ATv)TQ−1(c−u+ATv)−bTv
对于任意u≥0和v,g(u,v)作为下界约束着原函数最优解f∗的取值。
拉格朗日对偶问题
已知对于任意u≥0和v,f∗≥g(u,v)。因此最好的下界是:在u,v可行域上最大化g(u,v)。这就得到了拉格朗日对偶问题(Lagrange dual problem):
u,vmaxsubject tog(u,v)u≥0
一个关键的性质称为弱对偶(weak duality):如果对偶最优解为g∗,那么f∗≥g∗。
另一个关键性质是:对偶问题总是凸优化问题。
无论原问题是不是凸的,这两个性质总是成立的。
强对偶
弱对偶告诉我们f∗≥g∗总是成立的。而在一些问题中,我们可以得到f∗=g∗,该性质称之为强对偶。
Slater条件
Slater’s condition: 如果原问题是凸优化问题(即f和h1,...,hm是凸函数,l1,...,lr是放射函数),那么至少存在一个严格可行点x∈Rn,即
h1(x)<0,...,hm(x)<0且l1(x)=0,...,lr(x)=0满足强对偶。
可以验证的是,对于线性规划问题,LP对偶的对偶就是原LP问题。且LP问题总是有强对偶性。
例子:支持向量机
给定y∈{−1,1}n,X∈Rn×p有行向量x1,...,xn,则支持向量机(SVM)定义为:
β,β0,ξminsubject to21∥β∥22+Ci=1∑nξiξi≥0, i=1,...,nyi(xiTβ+β0)≥1−ξi, i=1,...,n
引入对偶变量v,w≥0,可以得到拉格朗日方程:
L(β,β0,ξ,v,w)=21∥β∥2+Ci=1∑nξi−i=1∑nviξi+i=1∑nwi(1−ξi−yi(xiTβ+β0))
则拉格朗日对偶函数为:
β,β0,ξminL=g(v,w)=⎩⎨⎧−21wTX~X~Tw+1Tw−∞if w=C1−v, wTy=0otherwise
其中,X~=diag(y)X。因此,SVM的对偶问题消除了松弛变量v:
wmaxsubject to−21wTX~X~Tw+1Tw0≤w≤C1, wTy=0
可以看到,Slater条件是满足的,因而SVM是有强对偶性的。
对偶间隙
给定原变量x和对偶变量u,v,则f(x)−g(u,v)称为对偶间隙(duality gap)。注意到f(x)−f∗≤f(x)−g(u,v),所以当对偶间隙为0时,x就是原问题的最优解(同时,u,v也是对偶问题的最优解)。
从算法角度来看,只要给定一个停止阈值:f(x)−g(u,v)≤ϵ,那么就可以保证f(x)−f∗≤ϵ。