凸優化中的對偶(Duality in General Programs)

Intorduction

在上節中,我們討論了線性規劃中的對偶,引入了對偶的基本概念和對偶的兩種解釋。對偶相當於給當前的優化問題找到了一個下界,通過提升這個下界來找到原問題的最優解。本節將進一步介紹對偶在一般規劃問題中的推廣。

拉格朗日對偶函數

考慮一般的最小化問題:
minxf(x)subject tohi(x)0, i=1,...,mli(x)=0, j=1,...,r \begin{aligned} \min_{x}\quad &f(x)\\ {\rm subject\ to}\quad &h_i(x)\leq 0,\ i=1,...,m\\ &l_i(x)=0,\ j=1,...,r \end{aligned}

這裏不需要一定是凸函數,當然我們主要研究凸函數的情況。我們定義拉格朗日方程(Lagrangian)爲:
L(x,u,v)=f(x)+i=1muihi(x)+j=1rvili(x)L(x,u,v)=f(x)+\sum^m_{i=1}u_ih_i(x)+\sum^r_{j=1}v_il_i(x)

新變量uRm,vRru\in R^m, v\in R^r,且u0u\geq 0。其一個重要的特性是,對於所有可行點xx
f(x)L(x,u,v)f(x)\geq L(x,u,v)

正如上節所示,如果CC表示原問題的可行域,ff^*表示原問題的最優解,那麼對於任意uuv0v\geq 0
fminxCL(x,u,v)minxL(x,u,v):=g(u,v)f^*\geq \min_{x\in C}L(x,u,v)\geq \min_x L(x,u,v):=g(u,v)

我們稱g(u,v)g(u,v)爲拉格朗日對偶函數(Lagrange dual function)。它給出了ff^*的一個下限。其中,u0u\geq 0vv稱之爲對偶變量。

例子:二次規劃
考慮二次規劃問題::
minx12xTQx+cTxsubject toAx=b, x0 \begin{aligned} \min_{x}\quad &\frac{1}{2}x^TQx+c^Tx\\ {\rm subject\ to}\quad &Ax=b,\ x\geq 0 \end{aligned}

其中,Q0Q\succ 0。拉格朗日方程爲:
L(x,u,v)=12xTQx+cTxuTx+vT(Axb)L(x,u,v)=\frac{1}{2}x^TQx+c^Tx-u^Tx+v^T(Ax-b)

拉格朗日對偶函數爲:
g(u,v)=minxL(x,u,v)=12(cu+ATv)TQ1(cu+ATv)bTvg(u,v)=\min_x L(x,u,v)=-\frac{1}{2}(c-u+A^Tv)^TQ^{-1}(c-u+A^Tv)-b^Tv

對於任意u0u\geq 0vvg(u,v)g(u,v)作爲下界約束着原函數最優解ff^*的取值。

拉格朗日對偶問題

已知對於任意u0u\geq 0vvfg(u,v)f^*\geq g(u,v)。因此最好的下界是:在u,vu,v可行域上最大化g(u,v)g(u,v)。這就得到了拉格朗日對偶問題(Lagrange dual problem):
maxu,vg(u,v)subject tou0 \begin{aligned} \max_{u,v}\quad &g(u,v)\\ {\rm subject\ to}\quad &u\geq 0 \end{aligned}

一個關鍵的性質稱爲弱對偶(weak duality):如果對偶最優解爲gg^*,那麼fgf^*\geq g^*
另一個關鍵性質是:對偶問題總是凸優化問題
無論原問題是不是凸的,這兩個性質總是成立的。

強對偶

弱對偶告訴我們fgf^*\geq g^*總是成立的。而在一些問題中,我們可以得到f=gf^*=g^*,該性質稱之爲強對偶。

Slater條件

Slater’s condition: 如果原問題是凸優化問題(即ffh1,...,hmh_1,...,h_m是凸函數,l1,...,lrl_1,...,l_r是放射函數),那麼至少存在一個嚴格可行點xRnx\in R^n,即
h1(x)<0,...,hm(x)<0h_1(x)<0,...,h_m(x)<0l1(x)=0,...,lr(x)=0l_1(x)=0,...,l_r(x)=0滿足強對偶。

可以驗證的是,對於線性規劃問題,LP對偶的對偶就是原LP問題。且LP問題總是有強對偶性。

例子:支持向量機
給定y{1,1}ny\in \{-1,1\}^nXRn×pX\in R^{n\times p}有行向量x1,...,xnx_1,...,x_n,則支持向量機(SVM)定義爲:
minβ,β0,ξ12β22+Ci=1nξisubject toξi0, i=1,...,nyi(xiTβ+β0)1ξi, i=1,...,n \begin{aligned} \min_{\beta,\beta_0,\xi}\quad &\frac{1}{2}\|\beta\|^2_2+C\sum^n_{i=1}\xi_i\\ {\rm subject\ to}\quad & \xi_i\geq 0,\ i=1,...,n\\ &y_i(x_i^T\beta + \beta_0) \geq1-\xi_i,\ i=1,...,n \end{aligned}

引入對偶變量v,w0v,w\geq 0,可以得到拉格朗日方程:
L(β,β0,ξ,v,w)=12β2+Ci=1nξii=1nviξi+i=1nwi(1ξiyi(xiTβ+β0))L(\beta, \beta_0, \xi, v, w)=\frac{1}{2}\|\beta\|^2+C\sum^n_{i=1}\xi_i-\sum^n_{i=1}v_i\xi_i+\sum^n_{i=1}w_i(1-\xi_i-y_i(x^T_i\beta + \beta_0))

則拉格朗日對偶函數爲:
minβ,β0,ξL=g(v,w)={12wTX~X~Tw+1Twif w=C1v, wTy=0otherwise \min_{\beta,\beta_0,\xi}L = g(v,w)=\left\{ \begin{aligned} &-\frac{1}{2}w^T\tilde{X}\tilde{X}^Tw+1^Tw &{\rm if}\ w=C1-v,\ w^Ty=0\\ &-\infty &otherwise \end{aligned} \right.

其中,X~=diag(y)X\tilde{X}={\rm diag}(y)X。因此,SVM的對偶問題消除了鬆弛變量vv
maxw12wTX~X~Tw+1Twsubject to0wC1, wTy=0 \begin{aligned} \max_{w}\quad &-\frac{1}{2}w^T\tilde{X}\tilde{X}^Tw+1^Tw\\ {\rm subject\ to}\quad &0\leq w\leq C1,\ w^Ty=0 \end{aligned}

可以看到,Slater條件是滿足的,因而SVM是有強對偶性的。

對偶間隙

給定原變量xx和對偶變量u,vu,v,則f(x)g(u,v)f(x)-g(u,v)稱爲對偶間隙(duality gap)。注意到f(x)ff(x)g(u,v)f(x)-f^*\leq f(x)-g(u,v),所以當對偶間隙爲0時,xx就是原問題的最優解(同時,u,vu,v也是對偶問題的最優解)。
從算法角度來看,只要給定一個停止閾值:f(x)g(u,v)ϵf(x)-g(u,v)\leq \epsilon,那麼就可以保證f(x)fϵf(x)-f^*\leq \epsilon

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章