KKT條件(Karush-Kuhn-Tucker Conditions)

Inttoduction

上一節我們提到了強對偶,即原問題的最優值與對偶問題的最優值相等。下面我們需要解決怎樣找到優化問題的最優解。而KKT條件就是最優解需要滿足的條件。

KKT條件

給定一個一般性的優化問題:
minxf(x)subject tohi(x)0, i=1,...,mli(x)=0, j=1,...,r \begin{aligned} \min_{x}\quad &f(x)\\ {\rm subject\ to}\quad &h_i(x)\leq 0,\ i=1,...,m\\ &l_i(x)=0,\ j=1,...,r \end{aligned}

KKT條件(Karush-Kuhn-Tucker conditions or KKT conditions)定義爲:

  • 穩定性條件:0x(f(x)+i=1muihi(x)+j=1rvjlj(x))0\in\partial_x(f(x)+\sum^m_{i=1}u_ih_i(x)+\sum^r_{j=1}v_jl_j(x))
  • 互補鬆弛性:uihi(x)=0for all iu_i\cdot h_i(x)=0\quad {\rm for\ all}\ i
  • 原問題可行域:hi(x)0,li(x)=0for all i,jh_i(x)\leq 0, l_i(x)=0\quad {\rm for\ all\ }i,j
  • 對偶問題可行域:ui0for all iu_i\geq 0\quad {\rm for\ all\ } i

充分性與必要性說明

必要性

假設xx^*u,vu^*,v^*分別是原問題和對偶問題的最優解,且原問題和對偶問題的對偶間隙爲0(即強對偶)。那麼:
f(x)=g(u,v)=minxf(x)+i=1muihi(x)+j=1rvjlj(x)f(x)+i=1muihi(x)+j=1rvjlj(x)f(x) \begin{aligned} f(x^*)&=g(u^*,v^*)\\ &=\min_x f(x)+\sum^m_{i=1}u^*_ih_i(x)+\sum^r_{j=1}v^*_jl_j(x)\\ &\leq f(x^*)+\sum^m_{i=1}u^*_ih_i(x^*)+\sum^r_{j=1}v^*_jl_j(x^*)\\ &\leq f(x^*) \end{aligned}

即所有不等式都可以取等號。因此,我們可以得到:

  • xx^*最小化L(x,u,v)L(x,u^*,v^*),那麼L(x,u,v)L(x,u^*,v^*)x=xx=x^*處的次微分一定包含0——即穩定性條件。
  • i=1muihi(x)=0\sum^m_{i=1}u^*_ih_i(x^*)=0——即互補鬆弛性

必要性:如果xx^*u,vu^*,v^*分別是原問題與對偶問題的解,且對偶間隙爲0,那麼x,u,vx^*,u^*,v^*滿足KKT條件。

充分性

如果存在x,u,vx^*,u^*,v^*滿足KKT條件,那麼
g(u,v)=f(x)+i=1muihi(x)+j=1rvjlj(x)=f(x) \begin{aligned} g(u^*,v^*)&=f(x^*)+\sum^m_{i=1}u^*_ih_i(x^*)+\sum^r_{j=1}v^*_jl_j(x^*)\\ &= f(x^*) \end{aligned}

因此,對偶間隙爲0,所以xx^*u,vu^*,v^*分別是原問題與對偶問題的解。
充分性:如果x,u,vx^*,u^*,v^*滿足KKT條件,那麼xx^*u,vu^*,v^*分別是原問題與對偶問題的解

總結

綜上所述,KKT條件等價於對偶間隙爲0:

  • 總是充分的
  • 在強對偶條件下是必要的

那麼我們可以得到:如果一個問題有強對偶性,那麼x,u,vx^*,u^*,v^*滿足KKT條件與xx^*u,vu^*,v^*分別是原問題與對偶問題的解是等價的。
可以看出,對於無約束優化問題,KKT條件就是次梯度最優化條件。對於一般性凸優化問題,KKT條件是次梯度最優化條件的推廣。

例子:支持向量機(SVM)
給定y{1,1}ny\in \{-1,1\}^nXRn×pX\in R^{n\times p}有行向量x1,...,xnx_1,...,x_n,則支持向量機(SVM)定義爲:
minβ,β0,ξ12β22+Ci=1nξisubject toξi0, i=1,...,nyi(xiTβ+β0)1ξi, i=1,...,n \begin{aligned} \min_{\beta,\beta_0,\xi}\quad &\frac{1}{2}\|\beta\|^2_2+C\sum^n_{i=1}\xi_i\\ {\rm subject\ to}\quad & \xi_i\geq 0,\ i=1,...,n\\ &y_i(x_i^T\beta + \beta_0) \geq1-\xi_i,\ i=1,...,n \end{aligned}

引入對偶變量v,w0v,w\geq 0。KKT穩定性條件爲:
0=i=1nwiyi,β=i=1nwiyixi,w=C1v0=\sum^n_{i=1}w_iy_i,\quad \beta=\sum^n_{i=1}w_iy_ix_i, \quad w=C1-v

互補鬆弛性:
viξi=0,wi(1ξiyi(xiTβ+β0))=0,i=1,...,nv_i\xi_i=0,\quad w_i(1-\xi_i-y_i(x^T_i\beta+\beta_0))=0,\quad i=1,...,n

因此,在最優點處我們有β=i=1nwiyixi\beta=\sum^n_{i=1}w_iy_ix_i,且僅當yi(xiTβ+β0)=1ξiy_i(x_i^T\beta + \beta_0) =1-\xi_iwiw_i是非零的,這些點ii被叫做支持點(support points)

  • 對於支持點ii,如果ξi=0\xi_i=0,則xix_i位於分割邊界上,且wi(0,C]w_i\in (0,C]
  • 對於支持點ii,如果ξi0\xi_i\neq0,則xix_i位於分割邊界的錯誤一邊,且wi=Cw_i= C
    在這裏插入圖片描述

有約束形式與拉格朗日形式

在統計和機器學習中,我們常常把一個優化問題在其有約束形式(constrained form),即
minxf(x)subject toh(x)t\min_x f(x)\quad {\rm subject\ to\quad }h(x)\leq t

和拉格朗日形式(Lagrange form),即
minxf(x)+λh(x)\min_x f(x)+\lambda\cdot h(x)

之間進行互換,並認爲這兩種形式是等價的。由上面分析可知,假如f,hf,h都是凸函數,這種等價在h(x)<th(x)<t時是成立的。

Conclusion

對偶的一個關鍵性質是,在強對偶條件下,KKT條件是最優解的充要條件,即原問題的解可以通過其對偶問題得到。由於對偶問題一定是凸優化問題,這在對偶問題比原問題更簡單時非常有用。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章