凸優化學習筆記 12：KKT條件

上一小節講了拉格朗日函數，可以把原始問題轉化爲對偶問題，並且對偶問題是凸的。我們還得到了弱對偶性和強對偶性的概念，並且提到了 Slater Condition 保證凸問題的強對偶性成立，並且給出了一些幾何的直觀解釋。那麼在這一節，我們將引出著名的 KKT 條件，它給出了最優解需要滿足的必要條件，是求解優化問題最優解的一個重要方式。

有需要的話可以參考前面兩節內容
凸優化學習筆記 10：凸優化問題
 凸優化學習筆記 11：對偶原理

文章目錄

1. KKT 條件

我們首先回顧一下拉格朗日函數，考慮下面的優化問題
$\begin{aligned} \text { minimize } \quad& f_{0}(x)\\ \text { subject to } \quad& f_{i}(x) \leq 0, \quad i=1, \ldots, m\\ &h_{i}(x)=0, \quad i=1, \ldots, p \end{aligned}$

那麼他的拉格朗日函數就是
$L(x,\lambda,\nu)=f_0(x)+\lambda^Tf(x)+\nu^Th(x)$

首先，我們看對偶函數
$g(\lambda,\nu)=\inf_{x\in\mathcal{D}}\left(f_0(x)+\lambda^Tf(x)+\nu^Th(x)\right)$

對偶問題實際上就是
$d^\star = \sup_{\lambda,\nu}g(\lambda,\nu)=\sup_{\lambda,\nu}\inf_x L(x,\lambda,\nu)$

然後我們再看原問題，由於 $\lambda\succeq0,f(x)\preceq0$ ，我們有
$f_0(x)=\sup_{\lambda,\nu}L(x,\lambda,\nu)$

原問題的最優解實際上就是
$p^\star=\inf_x f_0(x)= \inf_x \sup_{\lambda,\nu}L(x,\lambda,\nu)$

弱對偶性 $p^\star \ge d^\star$ 實際上說的是什麼呢？就是 max-min 不等式
$\inf_x \sup_{\lambda,\nu}L(x,\lambda,\nu) \ge \sup_{\lambda,\nu}\inf_x L(x,\lambda,\nu)$

強對偶性說的又是什麼呢？就是上面能夠取等號
$\inf_x \sup_{\lambda,\nu}L(x,\lambda,\nu) = \sup_{\lambda,\nu}\inf_x L(x,\lambda,\nu) = L({x}^\star,{\lambda}^\star,{\nu}^\star)$
實際上 ${x}^\star,{\lambda}^\star,{\nu}^\star$ 就是拉格朗日函數的鞍點！！！（數學家們真實太聰明瞭！！！妙啊！！！）那麼也就是說強對偶性成立等價於拉格朗日函數存在鞍點(在定義域內)。

好，如果存在鞍點的話，我們怎麼求解呢？還是看上面取等的式子
$\begin{aligned} f_0({x}^\star) = g(\lambda^\star,\nu^\star) &= \inf_x \left( f_0(x)+\lambda^{\star T}f(x)+\nu^{\star T}h(x) \right) \\ & \le f_0(x^\star)+\lambda^{\star T}f(x^\star)+\nu^{\star T}h(x^\star) \\ & \le f_0(x^\star) \end{aligned}$

這兩個不等號必須要取到等號，而第一個不等號取等條件應爲
$\nabla_x \left( f_0(x)+\lambda^{\star T}f(x)+\nu^{\star T}h(x) \right) =0$

第二個不等號取等條件爲
$\lambda^\star_i f_i(x^\star)=0,\forall i$

同時，由於 ${x}^\star,{\lambda}^\star,{\nu}^\star$ 還必須位於定義域內，需要滿足約束條件，因此上面的幾個條件共同構成了 KKT 條件。

KKT 條件

原始約束 $f_i(x)\le0,i=1,...,m, \quad h_i(x)=0,i=1,...,p$

對偶約束 $\lambda\succeq0$

互補性條件(complementary slackness) $\lambda_i f_i(x)=0,i=1,...,m$

梯度條件

$\nabla f_{0}(x)+\sum_{i=1}^{m} \lambda_{i} \nabla f_{i}(x)+\sum_{i=1}^{p} \nu_{i} \nabla h_{i}(x)=0$

2. KKT 條件與凸問題

Remarks(重要結論)

前面推導沒有任何凸函數的假設，因此不論是否爲凸問題，如果滿足強對偶性，那麼最優解一定滿足 KKT 條件。

但是反過來不一定成立，也即 KKT 條件的解不一定是最優解，因爲如果 $L(x,\lambda^\star,\nu^\star)$ 不是凸的，那麼 $\nabla_x L=0$ 並不能保證 $g(\lambda^\star,\nu^\star)=\inf_x L(x,\lambda^\star,\nu^\star)\ne L(x^\star,\lambda^\star,\nu^\star)$ ，也即不能保證 ${x}^\star,{\lambda}^\star,{\nu}^\star$ 就是鞍點。

但是如果我們假設原問題爲凸問題的話，那麼 $L(x,\lambda^\star,\nu^\star)$ 就是一個凸函數，由梯度條件 $\nabla_x L=0$ 我們就能得到 $g(\lambda^\star,\nu^\star)=L(x^\star,\lambda^\star,\nu^\star)=\inf_x L(x,\lambda^\star,\nu^\star)$ ，另一方面根據互補性條件我們有此時 $f_0(x^\star)=L(x^\star,\lambda^\star,\nu^\star)$ ，因此我們可以得到一個結論

Remarks(重要結論)：

考慮原問題爲凸的，那麼若 KKT 條件有解 $\tilde{x},\tilde{\lambda},\tilde{\nu}$ ，則原問題一定滿足強對偶性，且他們就對應原問題和對偶問題的最優解。

但是需要注意的是，KKT 條件可能無解！此時就意味着原問題不滿足強對偶性！

假如我們考慮上一節提到的 SCQ 條件，如果凸優化問題滿足 SCQ 條件，則意味着強對偶性成立，則此時有結論

Remarks(重要結論)：

如果 SCQ 滿足，那麼 $x$ 爲最優解當且僅當存在 $\lambda,\nu$ 滿足 KKT 條件！

例子 1：等式約束的二次優化問題 $P\in S_+^n$
$\begin{aligned} \text { minimize } \quad& (1/2)x^TPx+q^Tx+r \\ \text { subject to } \quad& Ax=b \end{aligned}$

那麼經過簡單計算就可以得到 KKT 條件爲
$\left[\begin{array}{cc} P & A^{T} \\ A & 0 \end{array}\right]\left[\begin{array}{l} x^{\star} \\ \nu^{\star} \end{array}\right]=\left[\begin{array}{c} -q \\ b \end{array}\right]$

例子 2：注水問題
$\begin{aligned} &\text { minimize } \quad-\sum_{i=1}^{n} \log \left(\alpha_{i}+x_{i}\right)\\ &\text { subject to } \quad x \succeq 0, \quad \mathbf{1}^{T} x=1 \end{aligned}$

根據上面的結論， $x$ 是最優解當且僅當 $x\succeq0,\mathbf{1}^{T} x=1$ ，且存在 $\lambda,\nu$ 滿足
$\lambda \succeq 0, \quad \lambda_{i} x_{i}=0, \quad \frac{1}{x_{i}+\alpha_{i}}+\lambda_{i}=\nu$

根據互補性條件 $\lambda_i x_i=0$ 分情況討論可以得到

如果 $\nu<1/\alpha_i$ ： $\lambda_i=0,x_i=1/\nu-\alpha_i$
如果 $\nu\ge1/\alpha_i$ ： $\lambda_i=\nu-1/\alpha_i,x_i=0$

整理就可以得到 $\mathbf{1}^{T} x=\sum_i\max\{0,1/\nu-\alpha_i\}$ ，這個式子怎麼理解呢？就像向一個池子裏注水一樣

3. 擾動與敏感性分析

現在我們再回到原始問題
$\begin{aligned} \text { minimize } \quad& f_{0}(x)\\ \text { subject to } \quad& f_{i}(x) \leq 0, \quad i=1, \ldots, m\\ &h_{i}(x)=0, \quad i=1, \ldots, p \end{aligned}$

我們引入了對偶函數 $g(\lambda,\nu)$ ，那這兩個參數 $\lambda,\nu$ 有什麼含義嗎？假如我們把原問題放鬆一下
$\begin{aligned} \text { minimize } \quad& f_{0}(x)\\ \text { subject to } \quad& f_{i}(x) \leq u_i, \quad i=1, \ldots, m\\ &h_{i}(x)=v_i, \quad i=1, \ldots, p \end{aligned}$

記最優解爲 $p^\star(u,v)=\min f_0(x)$ ，現在對偶問題變成了
$\begin{aligned} \max \quad& g(\lambda,\nu)-u^T\lambda -v^T\nu\\ \text{s.t.} \quad& \lambda\succeq0 \end{aligned}$

假如說原始對偶問題的最優解爲 $\lambda^\star,\nu^\star$ ，鬆弛後的對偶問題最優解爲 $\tilde{\lambda},\tilde{\nu}$ ，那麼根據弱對偶性原理，有
$\begin{aligned} p^\star(u,v) &\ge g(\tilde\lambda,\tilde\nu)-u^T\tilde\lambda -v^T\tilde\nu \\ &\ge g(\lambda^\star,\nu^\star)-u^{T}\lambda^\star -v^{T}\nu^\star \\ &= p^\star(0,0) - u^{T}\lambda^\star -v^{T}\nu^\star \end{aligned}$

這像不像關於 $u,v$ 的一階近似？太像了！實際上，我們有
$\lambda_{i}^{\star}=-\frac{\partial p^{\star}(0,0)}{\partial u_{i}}, \quad \nu_{i}^{\star}=-\frac{\partial p^{\star}(0,0)}{\partial v_{i}}$

4. Reformulation

前面將凸優化問題的時候，我們提到了Reformulation的幾個方法來簡化原始問題(參考凸優化學習筆記 10：凸優化問題)，比如消去等式約束，添加等式約束，添加鬆弛變量，epigraph等等。現在當我們學習了對偶問題，再來重新看一下這些方法。

4.1 引入等式約束

例子 1：考慮無約束優化問題 $\min f(Ax+b)$ ，他的對偶問題跟原問題是一樣的。如果我們引入等式約束，原問題和對偶問題變爲
$\begin{aligned} \text{minimize} \quad& f_{0}(y) \quad \\ \text{subject to} \quad& A x+b-y=0 \end{aligned} \quad\qquad \begin{aligned} \text{minimize} \quad& b^{T} \nu-f_{0}^{*}(\nu) \\ \text{subject to} \quad& A^{T} \nu=0 \end{aligned}$

例子 2：考慮無約束優化 $\min \Vert Ax-b\Vert$ ，類似的引入等式約束後，對偶問題變爲
$\begin{aligned} \text{minimize} \quad& b^{T} \nu \\ \text{subject to} \quad& A^{T} \nu=0,\quad \Vert\nu\Vert_*\le1 \end{aligned}$

4.2 顯示約束與隱式約束的相互轉化

例子 3：考慮原問題如下，可以看出來對偶問題非常複雜

$\begin{aligned} \text{minimize} \quad& c^{T} x \\ \text{subject to} \quad& A x=b \\ \quad& -1 \preceq x \preceq 1 \end{aligned} \qquad \begin{aligned} \text{maximize} \quad& -b^{T} \nu-\mathbf{1}^{T} \lambda_{1}-\mathbf{1}^{T} \lambda_{2} \\ \text{subject to} \quad& c+A^{T} \nu+\lambda_{1}-\lambda_{2}=0 \\ \quad& \lambda_{1} \succeq 0, \quad \lambda_{2} \succeq 0 \end{aligned}$

如果我們原問題的不等式約束條件轉化爲隱式約束，則有
$\begin{aligned} \text{minimize} \quad& f_{0}(x)=\left\{\begin{array}{ll}c^{T} x & \Vert x\Vert_\infty \preceq 1 \\ \infty & \text { otherwise }\end{array}\right. \\ \text{subject to} \quad& A x=b \end{aligned}$

然後對偶問題就可以轉化爲無約束優化問題
$\text{maximize} -b^T\nu-\Vert A^T\nu +c\Vert_1$

4.3 轉化目標函數與約束函數

例子 4：還考慮上面提到的無約束優化問題 $\min \Vert Ax-b\Vert$ ，我們可以把目標函數平方一下，得到
$\begin{aligned} \text{minimize} \quad& (1/2)\Vert y\Vert^2 \\ \text{subject to} \quad& Ax-b=y \end{aligned}$

然後對偶問題就可以轉化爲
$\begin{aligned} \text{minimize} \quad& (1/2)\Vert \nu\Vert_*^2+ b^T\nu \\ \text{subject to} \quad& A^T\nu=0 \end{aligned}$

最後給我的博客打個廣告，歡迎光臨
https://glooow1024.github.io/
https://glooow.gitee.io/

前面的一些博客鏈接如下
凸優化專欄
 凸優化學習筆記 1：Convex Sets
凸優化學習筆記 2：超平面分離定理
 凸優化學習筆記 3：廣義不等式
 凸優化學習筆記 4：Convex Function
凸優化學習筆記 5：保凸變換
 凸優化學習筆記 6：共軛函數
 凸優化學習筆記 7：擬凸函數 Quasiconvex Function
凸優化學習筆記 8：對數凸函數
 凸優化學習筆記 9：廣義凸函數
 凸優化學習筆記 10：凸優化問題
 凸優化學習筆記 11：對偶原理

凸優化學習筆記 12：KKT條件

文章目錄

1. KKT 條件

2. KKT 條件與凸問題

3. 擾動與敏感性分析

4. Reformulation

4.1 引入等式約束

4.2 顯示約束與隱式約束的相互轉化

4.3 轉化目標函數與約束函數

vue項目獲取富文本編輯器wangEditor內容導出爲word（html轉word格式並下載）

dotnet C# 創建 X11 應用時設置窗口背景顏色

Navicat安裝與激活教程

TDengine docker安裝方法

vue3組件通信與props

sapui5

Alpine Linux apk add DNS lookup error

部分JDK版本的發佈時間

工作中用到的腳本合集

合併代碼時Beyond Compare設置

凸優化學習筆記 15：梯度方法

最優化方法 23：算子分裂法 & ADMM

最優化方法 22：近似點算法 PPA

最優化方法 18：近似點算子 Proximal Mapping

凸優化學習筆記 2：超平面分離定理

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結