Introduction

一個凸優化問題具有以下基本形式：
$\begin{aligned} \min_{x\in D} f(x)\qquad\qquad\qquad\\ subject\ to\qquad g_i(x)\leq 0,\ i=1,...,m \\ h_j(x)=0,\ j=1,...,r\\ \end{aligned}$

其中， $f$ 和 $g_i$ 都是凸函數的，且 $h_j$ 是仿射變換。凸優化問題有一個良好的性質，即對於一個凸優化問題來說，任何局部最小值都是全局最小值。凸優化問題是優化問題中被研究得比較成熟的，也是非凸優化的基礎，許多非凸優化問題也被局部近似爲凸優化問題求解。

凸集和凸函數

凸集

凸集的定義

一個集合 $c \subseteq R^n$ 是凸集，如果對任意 $x,y\in C$ 都有
$tx+(1-t)y\in C,\ for\ all\ 0\leq t\leq 1$

許多常見的集合，如空集，點、線集合，仿射空間 $\{x:Ax=b,\ for\ given\ A,b\}$ 都屬於凸集。正因如此，對於凸集中的變量做仿射變換得到的仍然是凸集。

凸函數

凸函數的定義

如果函數 $f:\ R^n\rightarrow R$ 是凸函數，那麼函數的定義域 $dom(f)\subseteq R^n$ 是凸的，且對於所有 $x,y\in dom(f)$ ，都有
$f(tx+(1-t)y)\leq tf(x)+(1-t)f(y),\ for\ 0\leq t\leq 1$

換句話說，函數永遠不會高於 $f(x)$ 和 $f(y)$ 兩點連線。

在凸函數中有兩種比較重要的特例：

嚴格凸函數（strictly convex）：把上述公式的 $\leq$ 變爲 $<$ ，即函數永遠低於 $f(x)$ 和 $f(y)$ 兩點連線，把線性情況給排除了。
強凸函數（strongly convex）：即 $f$ 至少與二次函數一樣凸，其最高階數不小於2.
強凸意味着嚴格凸，他們都是凸函數的子集，他們的關係爲：
$strongly\ convex \subset strictly\ convex \subset convex$

一些常見的函數如，指數函數，仿射函數，以及常用的範數和最大值函數等，都是凸函數。

凸函數的性質

從凸函數的定義我們可以得到兩個性質：

一階特性：如果 $f$ 是可微的，那麼 $f$ 是凸函數，當且僅當 $dom(f)$ 是凸的，且對於所有 $x,y\in dom(f)$ ，都有
$f(y)\geq f(x)+\nabla f(x)^T (y-x)$ 因此對於一個可微的凸函數來說， $\nabla f(x)=0 \Leftrightarrow x\ minimizes f$ 。
二階特性：如果 $f$ 是二次可微的，那麼 $f$ 是凸函數，當且僅當 $dom(f)$ 是凸的，且對於所有 $x\in dom(f)$ 都有 $\nabla ^2 f(x)\geq 0$ 。

其次我們還能得到詹森不等式（Jensen’s inequality）：如果 $f$ 是凸的，且 $X$ 是定義在 $dom(f)$ 上的一個隨機變量，那麼有 $f(E[X])\leq E[f(x)]$ 。

凸優化問題

前面我們給出了凸優化問題的定義，這裏我們討論凸優化問題的一些性質。

解集

令 $X_{opt}$ 爲一個給定凸優化問題的所有解的集合，其可以寫爲：
$X_{opt}=\arg\min_{x\in D} f(x)$

$subject\ to\qquad g_i(x)\leq 0,\ i=1,...,m$

$Ax=b$

則 $X_{opt}$ 爲凸集。
若 $f$ 爲嚴格凸函數，那麼解是唯一的，即 $X_{opt}$ 只包含一個元素。

一階最優化條件

對於一個凸優化問題
$\min_{x}f(x)\ subject\ to\ x\in C$

且 $f$ 可微，一個可行點是最優的，當
$\nabla f(x)^T(y-x)\geq 0$

換句話說，從當前點 $x$ 起的所有可行方向都與梯度方向對齊。當最優化問題是無約束時，該條件簡化爲 $\nabla f(x)=0$ 。

凸優化問題的層次

凸優化問題有許多分支，常見的有線性規劃（linear programs, LPs），二次規劃（qudaratic programs, QPs），半定規劃（semidefinite programs, SDPs），錐規劃（cone programs, CPs）。他們的關係爲：
$LPs \subset QPs \subset SDPs \subset CPs \subset Convex\ Programs$

典型的凸優化問題

線性規劃

線性規劃是最典型的一類凸優化問題，其基本形式爲：
$\begin{aligned} \min_{x} c^Tx\\ subject\ to\qquad Dx\leq d\\ Ax=b \end{aligned}$

許多解決線性規劃的方法是單純形法和內點法。壓縮感知中的基追蹤算法就是線性規劃問題。
例子：基追蹤
給定 $y\in R^n$ 和 $X\in R^{n\times p}$ ，其中 $p>n$ 。對於一個欠定線性系統 $X\beta =y$ ，我們想要找到其最稀疏的解，其可以表達爲非凸優化形式：
$\begin{aligned} \min_{\beta}\|\beta\|_0\\ subject\ to\qquad X\beta =y \end{aligned}$

其中， $\|\beta\|_0=\sum^p_{j=1}1\{\beta_j \neq0\}$ ，爲 $\beta$ 的零階範數（ $l_0$ norm）。
由於該問題是非凸的，我們可以對其做凸鬆弛，即進行 $l_1$ norm近似，常常稱爲基追蹤：
$\begin{aligned} \min_{\beta}\|\beta\|_1\\ subject\ to\qquad X\beta =y \end{aligned}$

基追蹤是一個線性規劃問題，可以將其變爲基本形式：
$\begin{aligned} \min_{\beta,z}1^Tz\\ subject\ to\qquad z\geq \beta\\ z\geq -\beta\\ X\beta =y \end{aligned}$

二次規劃

二次規劃的基本形式爲：
$\begin{aligned} \min_{x}\ c^Tx+\frac{1}{2}x^TQx\\ subject\ to\qquad Dx\leq d\\ Ax=b \end{aligned}$

其中， $Q\succeq 0$ ，即爲正定的。
例子：支持向量機（SVM）
給定 $y\in \{-1,1\}^n$ ， $X\in R^{n\times p}$ 有行向量 $x_1,...,x_n$ ，則支持向量機問題定義爲：
$\begin{aligned} \min_{\beta,\beta_0,\xi} &\frac{1}{2}\|\beta\|^2_2+C\sum^n_{i=1}\xi_i\\ subject\ to\qquad & \xi_i\geq 0,\ i=1,...,n\\ &y_i(x_i^T\beta + \beta_0) \geq1-\xi_i,\ i=1,...,n \end{aligned}$

例子：lasso
給定 $y\in R^n$ ， $X\in R^{n\times p}$ ，則lasso問題定義爲：
$\begin{aligned} \min_{\beta} \|y-X\beta\|^2_2\\ subject\ to\qquad \|\beta\|_1\leq s \end{aligned}$

其中， $s\geq 0$ 是一個可調參數。
將約束條件作爲懲罰項加入到目標函數中可變形爲：
$\min_{\beta} \|y-X\beta\|^2_2+\lambda \|\beta\|_1$

這兩種形式是等價的。

參考資料

CMU：Convex Optimization

凸優化基礎（Convex Optimization basics）

Introduction

凸集和凸函數

凸集

凸集的定義

凸函數

凸函數的定義

凸函數的性質

凸優化問題

解集

一階最優化條件

凸優化問題的層次

典型的凸優化問題

線性規劃

二次規劃

參考資料

線性規劃中的對偶（Duality in linear programs）

次梯度（Subgradients）

KKT條件（Karush-Kuhn-Tucker Conditions）

凸優化中的對偶（Duality in General Programs）

隨機梯度下降（Stochastic gradient descent）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結