拉格朗日對偶性

在機器學習中，我們經常會遇到給定某些約束條件求解某個函數最大值或最小值的情況，稱之爲約束最優化，通常的做法是利用拉格朗日對偶性將原始問題轉化爲對偶問題，通過解對偶問題進而得到原始問題的解. 在機器學習的很多方法中都有用到此方法，如最大熵模型和SVM.

原始問題

我們假設 $f(x),c_i(x),h_(x)$ 是定義在 $R^n$ 上的連續可微函數，考慮如下約束最優化問題：

對於最優化問題我們通常轉化爲求min
$\begin{aligned} \min_{x\in R^n}\ \ \ \ &f(x)\\ s.t.\ \ \ \ &c_i(x)\leq 0,\ \ \ i=1,2,\dots,k\\ &h_j(x) = 0,\ \ j=1,2,\dots, l \end{aligned}$
我們稱這個約束最優化問題爲原始問題.

根據高等數學的相關知識可知，對於約束最優化的最常用解法是採用拉格朗日乘數法，將其轉化爲無約束的函數進而求其最值.

因此我們引入廣義拉格朗日函數(generalized Lagrange function)：
$L(x, \alpha, \beta) = f(x) + \sum_{i=1}^k\alpha_ic_i(x) + \sum_{j=1}^l \beta_jh_j(x)$

其中， $\alpha_i,\beta_j$ 是拉格朗日乘子， $\alpha_i \geq 0$ ，我們有如下關於 $x$ 的函數：
$\theta_P(x) = \max_{\alpha,\beta:\alpha_i\geq 0}\ L(x, \alpha, \beta)\tag{1.1}$
下標 $P$ 表示原始問題.

假設給定某個 $x$ ，若 $x$ 違反原始問題的約束條件，即存在某個 $i$ 使得 $c_i(w)>0$ 或者存在某個 $j$ 使得 $h_j(x)\neq 0$ ，那麼有

$\theta_P(x) = \max_{\alpha,\beta:\alpha_i\geq 0} \Big[f(x) + \sum_{i=1}^k\alpha_ic_i(x) + \sum_{j=1}^l \beta_jh_j(x)\Big] = + \infty$

若某個 $i$ 使得約束 $c_i(x)>0$ ，則令 $\alpha_i\rightarrow + \infty$ ，若存在某個 $h_j(x)=0$ ，則令 $\beta_jh_(x)\rightarrow + \infty$ .

我們可以這樣理解，拉格朗日函數相當於構造了一個含參函數，在滿足約束條件的情況下，這個函數的值總是小於等於目標函數 $f(x)$ . 而我們此時選取合適的參數 $\alpha、\beta$ 令該函數最大可使等號成立，即令 $L(x,\alpha,\beta) = f(x)$ ；若不滿足約束條件，則總存在 $\alpha、\beta$ 使得該函數趨向於 $+\infty$ .

這裏的 $\max$ 就是選取參數 $\alpha、\beta$ 的過程.

即
$\theta_P(x) = \begin{cases} f(x),&x滿足原始問題約束\\ +\infty, &其他 \end{cases}$

至此，我們用一個無約束的函數替代了原來的約束項，接下來我們進一步考慮求解目標函數 $f(x)$ 的最小化.

根據之前的理解，我們很容易得出，求解 $f(x)$ 的最小化等價於求解 $\theta_P(x)$ 最小化：
$\min_x \theta_P(x) = \min_x \max_{\alpha,\beta:\alpha_i\geq 0}L(x,\alpha,\beta)\tag{1.2}$

我們將
$\min_x \max_{\alpha,\beta:\alpha_i\geq 0}L(x,\alpha,\beta)\tag{1.3}$
稱爲廣義拉格朗日函數的極小極大問題.
我們定義原始問題的最優值
$p^* = \min_x\theta_P(x)\tag{1.4}$
稱爲原始問題的值.

對偶問題

定義 $\alpha、\beta$ 的函數：
$\theta_D(\alpha,\beta) = \min_xL(x, \alpha,\beta)\tag{2.1}$
再考慮極大化 $\theta_D(\alpha, \beta)$ ，即
$\max_{\alpha,\beta:\alpha_i\geq 0}\theta_D(\alpha,\beta) = \max_{\alpha,\beta:\alpha_i\geq 0} \min_x L(x,\alpha,\beta)\tag{2.2}$
我們將
$\max_{\alpha,\beta:\alpha_i\geq 0} \min_x L(x,\alpha,\beta)\tag{2.4}$
稱爲廣義拉格朗日函數的極大極小問題.

將廣義拉格朗日函數的極大極小問題表示爲約束最優化問題：
$\begin{aligned} &\max_{\alpha,\beta}\theta_D(\alpha,\beta) = \max_{\alpha,\beta} \min_x L(x,\alpha,\beta)\tag{2.5}\\ &s.t.\ \ \ \ \alpha_i\geq0,\ \ \ i=1,2\dots,k \end{aligned}$
稱爲原始問題的對偶問題.

原始問題如下：
$\min_x \theta_P(x) = \min_x \max_{\alpha,\beta:\alpha_i\geq 0}L(x,\alpha,\beta)$

定義對偶問題的最優值：
$d^* = \max_{\alpha,\beta:\alpha_i\geq0}\theta_D(\alpha,\beta)\tag{2.6}$

原始問題與對偶問題的關係

(1)若原始問題和對偶問題都有最優值，
對於式 $(1.1)(2.1)$ ，對於任意 $\alpha、\beta、x$ ，我們有
$\theta_D(\alpha,\beta) = \min_xL(x, \alpha,\beta)\leq L(x,\alpha,\beta)\leq \max_{\alpha,\beta:\alpha_i\geq 0}\ L(x, \alpha, \beta) =\theta_P(x)$
即
$\theta_D(\alpha,\beta)\leq \theta_P(x)$
且原始問題和對偶問題都有最優值，所以
$\max_{\alpha,\beta:\alpha_i\geq 0}\theta_D(\alpha,\beta)\leq \min_x\theta_P(x)$
即
$d^* = \max_{\alpha,\beta:\alpha_i\geq 0}\theta_D(\alpha,\beta)\leq \min_x\theta_P(x) = p^*$
對偶問題的最優值應當小於等於原始問題的最優值.

在某些條件下，會出現兩者的最優值相等 $d^* = p^*$ ，此時我們就可以用對偶問題替代原始問題，而此時的 $x^*,\alpha^*、\beta^*$ 分別是原始問題和對偶問題的最優解.

(2)我們給出如下

定理(充分條件)

對於原始問題
$\begin{aligned} \min_{x\in R^n}\ \ \ \ &f(x)\\ s.t.\ \ \ \ &c_i(x)\leq 0,\ \ \ i=1,2,\dots,k\\ &h_j(x) = 0,\ \ j=1,2,\dots, l \end{aligned}$
和對偶問題
$\begin{aligned} &\max_{\alpha,\beta}\theta_D(\alpha,\beta) = \max_{\alpha,\beta} \min_x L(x,\alpha,\beta)\\ &s.t.\ \ \ \ \alpha_i\geq0,\ \ \ i=1,2\dots,k \end{aligned}$
假設 $f(x)、c_i(x)$ 是凸函數， $h_j(x)$ 是仿射函數，並且假設不等式約束 $c_i(x)$ 是嚴格可行的，即存在 $x$ ，使得所有的 $c_i(x)<0$ ，

則存在 $x^*,\alpha^*,\beta^*$ 使得 $x^*$ 是原始問題的解， $\alpha^*,\beta^*$ 是對偶問題的解，且
$p^*=d^* = L(x^*,\alpha^*,\beta^*)$

KKT

如上給出的是求解的充分條件，通常情況下，我們求解問題時，只需要滿足假設，即可通過該方法將原始問題轉化爲對偶問題求解.

對於給定假設， $x^*,\alpha^*、\beta^*$ 分別是原始問題和對偶問題的解的必要條件是， $x^*,\alpha^*,\beta^*$ 滿足 Karush-Kuhn-Tucker(KKT) 條件:
$\Delta_xL(x^*,\alpha^*,\beta^*) = 0\\ \Delta_{\alpha}L(x^*,\alpha^*,\beta^*) = 0\\ \Delta_{\beta}L(x^*,\alpha^*,\beta^*) = 0\\ \alpha_i^*c_i(x^*) = 0, i=1,2,\dots,k\\ c_i(x^*) \leq 0, i=1,2,\dots,k\\ \alpha_i \geq 0, i=1,2,\dots,k\\ h_j(x^*) = 0, i=1,2,\dots,l\\$
其中 $\alpha_i^*c_i(x^*) = 0$ 稱爲KKt的對偶互補體哦阿健，由此條件可知：若 $\alpha^* > 0$ ，則 $c_i(x^*) = 0$ .

參考資料

李航《統計學習方法》

拉格朗日對偶性

拉格朗日對偶性

原始問題

對偶問題

原始問題與對偶問題的關係

KKT

參考資料

Devstack真實環境搭建OpenStack

L1正則爲什麼會產生稀疏解

集成算法梳理——XGBoost

集成學習算法梳理——GBDT

集成學習算法梳理——RF

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結