KKT條件（Karush-Kuhn-Tucker Conditions）

原創

2020-03-10 09:10

Inttoduction

上一節我們提到了強對偶，即原問題的最優值與對偶問題的最優值相等。下面我們需要解決怎樣找到優化問題的最優解。而KKT條件就是最優解需要滿足的條件。

KKT條件

給定一個一般性的優化問題：
$\begin{aligned} \min_{x}\quad &f(x)\\ {\rm subject\ to}\quad &h_i(x)\leq 0,\ i=1,...,m\\ &l_i(x)=0,\ j=1,...,r \end{aligned}$

KKT條件（Karush-Kuhn-Tucker conditions or KKT conditions）定義爲：

穩定性條件： $0\in\partial_x(f(x)+\sum^m_{i=1}u_ih_i(x)+\sum^r_{j=1}v_jl_j(x))$
互補鬆弛性： $u_i\cdot h_i(x)=0\quad {\rm for\ all}\ i$
原問題可行域： $h_i(x)\leq 0, l_i(x)=0\quad {\rm for\ all\ }i,j$
對偶問題可行域： $u_i\geq 0\quad {\rm for\ all\ } i$

充分性與必要性說明

必要性

假設 $x^*$ 和 $u^*,v^*$ 分別是原問題和對偶問題的最優解，且原問題和對偶問題的對偶間隙爲0（即強對偶）。那麼：
$\begin{aligned} f(x^*)&=g(u^*,v^*)\\ &=\min_x f(x)+\sum^m_{i=1}u^*_ih_i(x)+\sum^r_{j=1}v^*_jl_j(x)\\ &\leq f(x^*)+\sum^m_{i=1}u^*_ih_i(x^*)+\sum^r_{j=1}v^*_jl_j(x^*)\\ &\leq f(x^*) \end{aligned}$

即所有不等式都可以取等號。因此，我們可以得到：

點 $x^*$ 最小化 $L(x,u^*,v^*)$ ，那麼 $L(x,u^*,v^*)$ 在 $x=x^*$ 處的次微分一定包含0——即穩定性條件。
$\sum^m_{i=1}u^*_ih_i(x^*)=0$ ——即互補鬆弛性

必要性：如果 $x^*$ 和 $u^*,v^*$ 分別是原問題與對偶問題的解，且對偶間隙爲0，那麼 $x^*,u^*,v^*$ 滿足KKT條件。

充分性

如果存在 $x^*,u^*,v^*$ 滿足KKT條件，那麼
$\begin{aligned} g(u^*,v^*)&=f(x^*)+\sum^m_{i=1}u^*_ih_i(x^*)+\sum^r_{j=1}v^*_jl_j(x^*)\\ &= f(x^*) \end{aligned}$

因此，對偶間隙爲0，所以 $x^*$ 和 $u^*,v^*$ 分別是原問題與對偶問題的解。
充分性：如果 $x^*,u^*,v^*$ 滿足KKT條件，那麼 $x^*$ 和 $u^*,v^*$ 分別是原問題與對偶問題的解

總結

綜上所述，KKT條件等價於對偶間隙爲0：

總是充分的
在強對偶條件下是必要的

那麼我們可以得到：如果一個問題有強對偶性，那麼 $x^*,u^*,v^*$ 滿足KKT條件與 $x^*$ 和 $u^*,v^*$ 分別是原問題與對偶問題的解是等價的。
可以看出，對於無約束優化問題，KKT條件就是次梯度最優化條件。對於一般性凸優化問題，KKT條件是次梯度最優化條件的推廣。

例子：支持向量機（SVM）
給定 $y\in \{-1,1\}^n$ ， $X\in R^{n\times p}$ 有行向量 $x_1,...,x_n$ ，則支持向量機(SVM)定義爲：
$\begin{aligned} \min_{\beta,\beta_0,\xi}\quad &\frac{1}{2}\|\beta\|^2_2+C\sum^n_{i=1}\xi_i\\ {\rm subject\ to}\quad & \xi_i\geq 0,\ i=1,...,n\\ &y_i(x_i^T\beta + \beta_0) \geq1-\xi_i,\ i=1,...,n \end{aligned}$

引入對偶變量 $v,w\geq 0$ 。KKT穩定性條件爲：
$0=\sum^n_{i=1}w_iy_i,\quad \beta=\sum^n_{i=1}w_iy_ix_i, \quad w=C1-v$

互補鬆弛性：
$v_i\xi_i=0,\quad w_i(1-\xi_i-y_i(x^T_i\beta+\beta_0))=0,\quad i=1,...,n$

因此，在最優點處我們有 $\beta=\sum^n_{i=1}w_iy_ix_i$ ，且僅當 $y_i(x_i^T\beta + \beta_0) =1-\xi_i$ ， $w_i$ 是非零的，這些點 $i$ 被叫做支持點（support points）

對於支持點 $i$ ，如果 $\xi_i=0$ ，則 $x_i$ 位於分割邊界上，且 $w_i\in (0,C]$ ；
對於支持點 $i$ ，如果 $\xi_i\neq0$ ，則 $x_i$ 位於分割邊界的錯誤一邊，且 $w_i= C$ ；

有約束形式與拉格朗日形式

在統計和機器學習中，我們常常把一個優化問題在其有約束形式（constrained form），即
$\min_x f(x)\quad {\rm subject\ to\quad }h(x)\leq t$

和拉格朗日形式（Lagrange form），即
$\min_x f(x)+\lambda\cdot h(x)$

之間進行互換，並認爲這兩種形式是等價的。由上面分析可知，假如 $f,h$ 都是凸函數，這種等價在 $h(x)<t$ 時是成立的。

Conclusion

對偶的一個關鍵性質是，在強對偶條件下，KKT條件是最優解的充要條件，即原問題的解可以通過其對偶問題得到。由於對偶問題一定是凸優化問題，這在對偶問題比原問題更簡單時非常有用。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

KKT條件（Karush-Kuhn-Tucker Conditions）

Inttoduction

KKT條件

充分性與必要性說明

必要性

充分性

總結

有約束形式與拉格朗日形式

Conclusion

線性規劃中的對偶（Duality in linear programs）

次梯度（Subgradients）

KKT條件（Karush-Kuhn-Tucker Conditions）

凸優化中的對偶（Duality in General Programs）

隨機梯度下降（Stochastic gradient descent）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結