文章目錄

一、Lagrange函數與Lagrange對偶函數

1-Lagrange函數

Lagrange函數是微積分就瞭解的基礎概念,簡單覆盤一下，考慮一個熟悉的優化問題,（不一定是一個凸優化問題）
$\min \quad f_0(x) \\ s.t. \quad f_i(x)\leq 0\quad i=1...m \\ \quad h_i(x) = 0 \quad i=1...p$
這個優化問題的定義域爲 $x\in R^n\quad D=\cap_{i=0}^mdom f_i{\cap} \cap_{i=1}^pdom h_i$ ，即所有限制條件與優化函數定義域的交集，假設目標函數最小的函數值爲 $p^*$ ，我們得到Lagrange函數
$L(x,\lambda,\nu)=f_0(x)+\sum_{i=1}^m\lambda_if_i(x)+\sum_{i=1}^p\nu_ih_i(x)$
該函數是一個三變量的函數，其中 $x$ 是自變量和上面一樣， $\lambda$ 是一個 $m$ 維的向量，即不等式約束的維數，每個 $\lambda_i$ 稱之爲與不等式約束相關的拉格朗日乘子。而 $\nu$ 是一個 $p$ 維的向量，與等式約束的維數一樣， $\nu_i$ 稱之爲與等式約束相關的拉格朗日乘子。當然這些函數可能都是一些很一般的函數，我們只是對他們進行了線性的加權，並不能構造出很好的函數形式。

2-Lagrange對偶函數

對偶函數定義爲如下形式：
$g(\lambda,\nu)=\inf_{x\in D}L(x,\lambda,\nu)$
即給定任意的 $(\lambda,\nu)$ ，我們任意的選擇 $x\in D$ ，使得拉格朗日函數的值取得最小。此時我們發現，該函數已經與 $f_0(x)$ 的凸性無關了，這變成了一個關於拉格朗日乘子 $(\lambda,\nu)$ 的函數。對偶函數有幾個非常重要而且好用的性質：

拉格朗日對偶函數一定是凹函數，且其凹性與最優化函數和約束函數無關。證明放在appendix A中
$\forall \lambda\geq0,\forall \nu,g(\lambda,\nu)\leq p*$ 。即選擇任意 $\lambda\geq0$ 和 $\nu$ ， $g$ 的函數值不可能大於原優化問題的最優解，即構成了原問題最優值的下界？最優值下界的證明放在appendix B中。

二、三個實例理解對偶與其性質

1-線性約束得二次優化問題

首先來考慮一個具有線性約束的二次優化問題：
$\min \quad X^TX \\ s.t. \quad AX=b\\ X\in R^n\quad b\in R^n\quad A\in R^{p*n}$
$\mathbf{拉格朗日函數：L(X,\nu)=X^TX+\nu^T(AX-b)}$
$\mathbf{對偶函數：g(\nu)=\inf_{X\in D}L(X,\nu)=\inf_{X\in D}X^TX+\nu^TAX-\nu^Tb}$
在這裏面求最小值的話我們只需要對 $X$ 求個偏導，得到 $2X+A^T\nu=0$ ，那麼 $X=-\frac{A^T\nu}{2}$ ，將其帶回，使得對偶函數完全變成一個 $\nu$ 的函數。
$\mathbf{g(\nu)=\frac{\nu^TAA^T\nu}{4}-\frac{\nu^TAA^T\nu}{2}-\nu^Tb=-\frac{\nu^TAA^T\nu}{4}-b^T\nu}$
注意 $b,\nu$ 都是向量，所以內積總是常數，可以隨便轉置。也就是說我們將優化問題轉化成了這個對偶函數，而該函數是一個凹函數，因爲 $-AA^T$ 一定是一個半負定的矩陣。

2-線性規劃問題

考慮線性規劃問題：
$\min \quad c^Tx \\ s.t. \quad Ax-b=0\\-x\leq 0$
注意不等式約束一定要寫成 $\leq0$ 的形式。
$\mathbf{拉格朗日函數：L(x,\lambda,\nu)=c^Tx-\lambda^Tx+\nu^T(Ax-b)=-b^T\nu+(c+A^T-\lambda)^Tx}$
$\mathbf{對偶函數：g(\lambda,\nu)=\inf_{x\in D}L(x,\lambda,\nu)}$
當 $-b^T\nu+(c+A^T-\lambda)^Tx$ 一次項的係數等於0的時候，這個函數的最小值是 $-b^Tx$ ，否則我們總能使得這個函數的值取得 $-\infty$ ，因爲在對偶函數裏我們已經將原約束優化問題轉化成了單獨的一個函數， $x$ 是 $R^n$ 上隨便取得。因此對偶函數實際上是一個分段函數
$\color{blue}-b^T\nu,\quad A^T-\lambda+c=0\\ -\infty,\quad\quad otherwise$
$A^T-\lambda+c=0$ 顯然是一個超平面，而這整個函數可以看作 $,\quad A^T-\lambda+c=0$ 對應函數在全空間上的凹擴展，在這個超平面上取值固定，既凸又凹，因此總體是凹函數。

3-非凸函數，非凸限制

最後我們來看一個非凸函數，非凸限制得優化問題
$\min \quad x^TWx \\ s.t. \quad x_i^2-1=0,\quad i=1...m$
$\mathbf{拉格朗日函數：L(x,\lambda,\nu)=x^TWx+\sum_{i=1}^n\nu_i(x_i^2-1)}$
將這個函數進行一步轉化得到： $\color{red}L(x,\lambda,\nu)=x^T(W+Diag(\nu))x-1^T\nu$
$\mathbf{對偶函數：g(\lambda,\nu)=\inf_{x\in D}x^T(W+Diag(\nu))x-1^T\nu}$
那麼我們對這個對偶函數進行一波分析，當該二次型得係數矩陣半正定時，這個函數能取到得最小值一定是 $1^T\nu$ ，否則，前一項一定可以使得這個函數得最小值取到 $-inf$ 。也就是說，這個函數是一個分段函數
$\color{blue}-1^T\nu,\quad W+Diag(\nu)\succeq0\\ -\infty,\quad\quad otherwise$
那麼我們只需要證明 $W+Diag(\nu)$ 是一個凸集即可。這個利用 $f(\theta \nu_1)+(1-\theta)f(\nu_2)\leq \theta f(\nu_1)+(1-\theta)f\nu_2)$ 即可證明。

三、對偶函數與共軛函數的聯繫

1-共軛函數

共軛函數在凸優化中有着非常重要的作用，是理解對偶的必不可少的元素。在書中，它被定義爲
$f^*(y)=\sup_{x\in dom f}(y^Tx-f(x))$
其中， $f:R^n\rightarrow R，f^*:R^n\rightarrow R$ ， $f^*$ 稱爲 $f$ 的共軛函數。也就是說，共軛函數是線性函數 $y^Tx$ 與原始函數 $f(x)$ 的最大gap.

2-二者的聯繫

二者的去別主要在於 $inf,sup$ 這兩個操作上，我們知道 $inf f(x)=-sup -f(x)$ ，因此舉幾個常規的例子來看一看寫出來的共軛函數和對偶函數區別到底在哪裏。最簡單的：
$\min f(x)\\ s.t.\quad x=0$
寫出他的對偶函數 $\inf(x)+v^Tx;dom L\in dom f×R^n$

他等價於 $-\sup(-v^Tx -f(x))$ 這就變成共軛函數的形式即 $\mathbf{-f^*(-v)}$ （ $x$ 並不是變量 $v$ 纔是），其實對於任意一個函數的對偶函數，我們通過如上形式都可以將它變爲以拉格朗日乘子爲變量的共軛函數，

四、對偶問題與原問題

1-概念，定義以及重要性質

有了上述的對偶函數，我們知道對偶函數的最優解是原問題的最優值下界，那麼我們就能得到兩個定義：對偶問題（D：dual）與原問題（P：primary）

$(D) \max \quad g(\lambda,\nu)\\s.t.\quad \color{red}\lambda\succeq0$
注意如果原問題有不等式約束，那麼對偶問題種一定有 $\lambda\succeq 0$ 的約束條件。他的最優值記爲 $d^*$ ，原問題記爲
$(P)\min f_0(x)\\s.t.\quad f_i(x)\leq0\quad i=1,...,m\\ b_i(x)=0\quad i=1,...,p$
原問題的最優解爲 $p^*$ ,根據最優值下界我們有
$d^*\leq p^*$
我們關注兩個問題：

這個最優值下界好像沒有什麼意義，比如說我說你最少活2年，這顯然是沒有意義的，一定要給一個確界才比較好，比如能活100年。這表現在對偶問題中就是 $p^*=d^*$ ，如何能達到這一點是我們需要考慮的
我們知道對偶問題一定是一個凸問題，但是對偶問題的對偶問題不一定是原問題（同共軛函數的性質），非凸問題的對偶問題的對偶問題依然不會是非凸的，那麼是麼時候我們可以使得某個問題的對偶問題的對偶是它自身，這是第二個需要考慮的問題。

2-強對偶與弱對偶

我們定義對偶間隙爲原問題的最優解與對偶問題的最優解的差 $p^*-d^*$ （因爲 $d^*$ 是最優值下界，此值一定不小於0）
強對偶：如果等式 $d^*=p^*$ ，即對偶間隙等於0，那麼強對偶性成立。
弱對偶：對偶問題一般都具有的性質，只要滿足 $d^*<p^*$ 即可。

3-強對偶性何時成立以及slate充分條件

$\textbf{\color{blue}{相對內部(Relative interior)}}$
首先我們需要給出集合 $D$ 的相對內部(Relative interior)，記作 $\mathbf{relint} \;D$ ，他定義如下：
$\mathbf{relint} \;D=\{x\in D|B(x,r)\cap\mathbf{aff} D\in D,\exist r>0\}$
這個概念其實很簡單，我們分爲三部分來理解它

首先 $x\in D$ ，表示了所有元素都在 $D$ 內部。
$B(x,r)\cap\mathbf{aff} D\in D$ 表示以 $x$ 爲中心，我們能找到一個半徑爲 $r$ 的圓，他和 $D$ 的仿射包的交集依然在 $D$ 的內部。

可以看到上面，只有在邊界上的時候，我們任取一個 $x$ ，找不到半徑使得仿射集和圓的交集在 $D$ 內，其實相對內部的定義即去掉該集合的邊界。

$\textbf{\color{blue}{slate條件}}$
slate條件回答了什麼時候我們可以得到 $p^*=d^*$ ，這是一個充分條件，不滿足時對偶問題的最優解也可能是一個下確界，它的定義如下：

對於一般問題，強對偶性不成立。但是如果當原問題是凸問題，即寫爲：
$\min \quad f_0(x) \\ s.t. \quad f_i(x)\leq 0\quad i=1...m \\ Ax=b,$
其中 $f_i(x)$ 是凸函數，此時強對偶性通常（但不總是）成立的（即原問題是凸問題，它的對偶問題一般都具有強對偶性）。必要的時候我們可以使用強對偶性成立的充分條件進行判斷：

存在一點 $x\in \mathbf{relint}D$ 使得下列等式成立：
$f_i(x)<0,i=1,...,m\quad\quad Ax=b$
即不僅滿足等式約束，而且所有的不等式約束都小於0，去掉了等於0的情況。但是這時候我們要找到這樣一個 $x$ 來驗證是非常難的，因此我們有了更弱一點的slate條件。

$\textbf{\color{blue}{弱slate條件}}$
如果原問題是一個凸問題，而且不等式約束全部爲仿射約束時，只要可行域非空，必有 $p^*=d^*$ 。當不等式約束中存在仿射不等式時，這些仿射不等式不需要嚴格成立（即他們不需要<0, $\leq0$ 即可），只要我們能找到一個 $x\in\mathbf{relint}D$ 使得所有非仿射不等式嚴格成立，這個條件依然是可行的。

Appendix A：證明：對偶函數一定是凹函數，且其凹性與最優化函數和約束函數無關

如果瞭解保凸運算，那麼我們知道函數的逐點上確界一定是一個凸函數，給定下列函數
$L(\lambda,\nu)=\sup_{x\in D}f_0(x)+\sum_{i=1}^m\lambda_if_i(x)+\sum_{i=1}^p\nu_ih_i(x)$
即對每個 $(\lambda,\nu)$ 我們求一個 $x$ 使得函數值最大，這樣的函數叫做逐點上確界。而我們現在的函數，是關於 $(\lambda,\nu)$ 的線性函數，線性函數也是凸函數，那如果是求最小呢，就變成了仿射函數的下確界問題，是一個凹函數。我們給出詳細的推導過程：

參考自：https://blog.csdn.net/u014540876/article/details/79153913

要證對偶函數一定是凹函數，根據凹函數的定義，就是要證
$g(\theta\lambda_1+(1-\theta)\lambda_2,\theta\nu_1+(1-\theta)\nu_2)\geq \theta g(\lambda_1,\nu_1)+(1-\theta)g(\lambda_2,\nu_2)\quad \theta\in R$
根據對偶函數的定義可知，對偶函數是拉格朗日函數在把 $\lambda$ 和 $\nu$ 當做常量， $x$ 變化時的最小值，如果拉格朗日函數沒有最小值（可以認爲最小值爲 $-\infty$ )，則對偶函數取值爲 $-\infty$ ，所以，可以把對偶函數按照下面的方式表達：

即無窮多個x變化時，拉格朗日函數的最小值。另外，由於把λ和ν分開來寫，式子太長了，爲了簡便，記 $\gamma = (\lambda, \nu)$ ，那麼我們有

我們關注一下 $L$ 這個函數，他是一個關於 $\lambda,\nu$ 的線性函數，因此既是凸的也是凹的，利用凸性我們可以得到 $L(x,\theta\gamma_1+(1-theta)\gamma_2)\geq \theta L(x,\gamma_1)+(1-\theta)L(x,\gamma_2)$ ，因此我們可以得到上式大於等於：

對min函數，我們有一個基本不等式 $\min_{i=1}^n(a+b)\geq \min_{i=1}^n(a)+\min_{i=1}^n(b)$ ，其中 $a=\{a_1,...a_n\},b=\{b_1,...,b_n\}$ 都是向量。那麼我們進一步化簡上式得到：

所以原命題得證。

Appendix B：證明：對偶函數爲最優值下界

我們之前假設的 $p*$ 爲原優化問題的最優解，也即全局最小，設此時自變量值爲 $x^*$ 。那麼對於任意的 $\lambda\geq0$ 和 $\nu$ ，我們有 $L(x^*,\lambda,\nu)=f_0(x^*)+\sum_{i=1}^m\lambda_if_i(x)+\sum_{i=1}^p\nu_ih_i(x)\leq p^*$
原因很簡單，因爲 $f_i(x)$ 都是不等式約束，而我們的不等式約束都要小於0，而等式約束都等於0，即 $\sum_{i=1}^m\lambda_if_i(x)+\sum_{i=1}^p\nu_ih_i(x)\leq 0$ ，那麼也就是給 $f_0(x^*)$ 加上了一個非正項。而我們的對偶函數，
$g(\lambda,\nu)=\inf_{x\in D}L(x,\lambda,\nu)$
因爲 $x^*$ 總是在定義域裏的，所以最小化這個值等價於最小化 $L(x^*,\lambda,\nu)=f_0(x^*)+\sum_{i=1}^m\lambda_if_i(x)+\sum_{i=1}^p\nu_ih_i(x)\leq p^*$ 。得證

拿兩個書上的圖加深理解

深入理解凸優化核心理論：對偶

文章目錄

一、Lagrange函數與Lagrange對偶函數

1-Lagrange函數

2-Lagrange對偶函數

二、三個實例理解對偶與其性質

1-線性約束得二次優化問題

2-線性規劃問題

3-非凸函數，非凸限制

三、對偶函數與共軛函數的聯繫

1-共軛函數

2-二者的聯繫

四、對偶問題與原問題

1-概念，定義以及重要性質

2-強對偶與弱對偶

3-強對偶性何時成立以及slate充分條件

Appendix A：證明：對偶函數一定是凹函數，且其凹性與最優化函數和約束函數無關

Appendix B：證明：對偶函數爲最優值下界

一鍵自動化博客發佈工具,用過的人都說好(頭條篇)

題解 P3275 【[SCOI2011]糖果】

【超詳細】計算機組成原理考點總結

【看了就懂】P問題、NP問題、NP完全問題和NP難問題

POJ 1942 Paths on a Grid【題解報告|DP巧妙的解決組合數問題】

POJ 1836 Alignment【巧妙地LCS】

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結