最優化方法 18：近似點算子 Proximal Mapping

前面講了梯度下降法，分析了其收斂速度，對於存在不可導的函數介紹了次梯度的計算方法以及次梯度下降法，這一節要介紹的內容叫做近似點算子(Proximal mapping)，也是爲了處理非光滑問題。

文章目錄

1. 閉函數

在引入閉函數(closed function)的概念之前，我們先回顧一下閉集的概念：集合 $\mathcal{C}$ 是閉的，如果它包含邊界，也即
$x^{k} \in \mathcal{C}, \quad x^{k} \rightarrow \bar{x} \quad \Rightarrow \quad \bar{x} \in \mathcal{C}$
並且有以下幾個簡單的原則可以保持集合閉的性質：

閉集的交集還是閉集；
有限個閉集的並集還是閉集；
如果 $\mathcal{C}$ 是閉集，則線性映射的原象也是閉集，也即 $\{x|Ax\in\mathcal{C}\}$ 是閉集。

第 3 條原則反過來則不一定成立，也即如果 $x\in\mathcal{C}$ 是閉集，那麼 $\{Ax|x\in\mathcal{C}\}$ 則不一定是閉集，比如我們可以取函數 $f(x)=1/x$ 的 epigraph 爲閉集 $\mathcal{C}$ ，然而 $(x,y)$ 向 $x$ 軸的投影則是一個開集，嚴格表示與圖示如下
$\mathcal{C}=\left\{\left(x_{1}, x_{2}\right) \in \mathbb{R}_{+}^{2} | x_{1} x_{2} \geq 1\right\}, \quad A=[1,0], A \mathcal{C}=\mathbb{R}_{++}$

第3條逆原則反例	第3條逆原則充分條件

當然，如果加一些其他的約束條件，則可以保證第 3 條反過來也成立： $A\mathcal{C}$ 是閉的，如果

$\mathcal{C}$ 是閉的且爲凸集；
並且 $\mathcal{C}$ 不存在一個可以無窮延伸的方向(recession direction)屬於 $A$ 的零空間，也即 $A y=0, \hat{x} \in \mathcal{C}, \hat{x}+\alpha y \in \mathcal{C}, \forall \alpha>0 \Rightarrow y=0$ ，圖示即如上。

然後我們就可以定義**閉函數(closed function)**了，函數 $f$ 爲閉的，如果他的 epigraph 爲閉集或者他的所有下水平集爲閉集。有以下兩種簡單的特殊情況：

如果 $f$ 連續且定義域 $\text{dom}f$ 爲閉的，則 $f$ 爲閉函數；
如果 $f$ 連續且定義域 $\text{dom}f$ 爲開的，則 $f$ 爲閉函數當且僅當其在 $\text{dom}f$ 邊界處收斂至 $\infty$ 。

例子 1： $f(x)=x\log x,\quad\text{dom}f=R_+,f(0)=0$

例子 2：閉集的指示函數 $\delta_C(x)=\begin{cases}0&x\in C\\ +\infty & o.w.\end{cases}$

反例 3： $f(x)=x\log x,\quad\text{dom}f=R_{++}$ 或者 $f(x)=x\log x,\quad\text{dom}f=R_+,f(0)=1$ 不是閉函數

反例 4：開集的指示函數不是閉函數

閉函數有一些有用的性質，比如：

$f$ 爲閉函數當且僅當他的所有下水平集都是閉集；
如果 $f$ 爲閉函數，且下水平集有界，那麼存在最小值點(minimizer)。

Theorem (Weierstrass) ：假設集合 $D\subset \mathcal{E}$ ( $R^n$ 空間中有限維向量子空間) 非空且閉，並且連續函數 $f:D\to R$ 的所有下水平集都有界，則 $f$ 存在全局最小值點(global minimizer)。

對於閉函數來說也有一些原則可以保持閉的性質：

如果 $f,g$ 均爲閉函數，則 $f+g$ 爲閉函數
如果 $f$ 爲閉函數，則 $f(Ax+b)$ 爲閉函數
如果任意 $f_\alpha$ 都是閉函數，則 $\sup_\alpha f_\alpha(x)$ 爲閉函數

2. 共軛函數

共軛函數(conjugate function) 前面已經講過了，這裏再簡單回顧一遍。函數 $f$ 的共軛函數定義爲
$f^\star(y)=\sup_{x\in\text{dom}f} (y^Tx-f(x))$

並且共軛函數有一些重要的性質：

共軛函數一定是閉函數，且爲凸函數，不論 $f$ 是否爲凸函數或閉函數（因爲 $f^\star$ 的 epigraph 可以看成很多個半空間的交集）；

(Fenchel’s inequality) $f(x)+f^{*}(y) \geq x^{\top} y, \forall x, y$

(Legendre transform) 如果 $f$ 爲凸函數且爲閉函數，則有 $y \in \partial f(x) \Leftrightarrow x \in \partial f^{*}(y) \Leftrightarrow x^{\top} y=f(x)+f^{*}(y)$

如果 $f$ 爲凸函數且爲閉函數，則 $f^{\star\star}=f$

除此之外還有一些代數變換的原則，推導也都比較簡單：

$f\left(x_{1}, x_{2}\right)=g\left(x_{1}\right)+h\left(x_{2}\right), \quad f^{*}\left(y_{1}, y_{2}\right)=g^{*}\left(y_{1}\right)+h^{*}\left(y_{2}\right)$

$f(x)=\alpha g(x), \quad f^{*}(y) {=} \alpha g^{*}(y / \alpha) \quad(\bigstar)$

$f(x)=g(x)+a^{\top} x+b \quad f^{*}(y)=g^{*}(y-a)-b$

$f(x)=\inf _{u+v=x}(g(u)+h(v)) \quad f^{*}(y)=g^{*}(y)+h^{*}(y)$

共軛函數的計算就不多舉例子了，這裏主要列出來後面用的比較多的而且比較重要的，其他的可以參考前面的筆記 6：

例子 1： $C$ 爲凸集，則指示函數 $f(x)=\delta_C(x)$ ，其共軛函數爲支撐函數
$f^\star(y) = \sup\{y^Tx|x\in C\}$
如果求兩次共軛函數也很容易得到：支撐函數的共軛函數爲指示函數。

例子 2：範數 $f(x)=\Vert x\Vert$ 的共軛函數也是指示函數
$f^\star(y) = \left\{\begin{array}{ll} 0 & \|y\|_{*} \leq 1 \\ \infty & \text { otherwise } \end{array}\right.$

3. 近似點算子

首先給出來近似點算子(Proximal mapping)的定義：閉凸函數 $f$ 的近似點算子定義爲
$\operatorname{prox}_{f}(x)=\underset{u}{\operatorname{argmin}}\left(f(u)+\frac{1}{2}\|u-x\|_{2}^{2}\right)$
根據這個定義，實際上我們是在求解函數 $g(u)=f(u)+\frac{1}{2}\|u-x\|_{2}^{2}$ 的最小值，由於 $g$ 是閉函數且下水平集有界，因此最小值一定存在；同時由於 $g$ 爲強凸函數，因此最小值點唯一。

那麼怎麼理解這個算子函數 $\text{prox}_f(x)$ 呢？可以看到這實際上是一個 $\text{prox}_f:R^n\to R^n$ 的映射。如果 $u=\text{prox}_f(x)$ ，則應該有 $x-u\in \partial f(u)$ 。下面看一些簡單的例子。

例子 1：二次函數 $A\succeq 0$
$f(x)=\frac{1}{2} x^{T} A x+b^{T} x+c, \quad \operatorname{prox}_{t f}(x)=(I+t A)^{-1}(x-t b)$
例子 2：歐幾里得範數 $f(x)=\Vert x\Vert_2$
$\operatorname{prox}_{t f}(x)=\left\{\begin{array}{ll} \left(1-t /\|x\|_{2}\right) x & \|x\|_{2} \geq t \\ 0 & \text { otherwise } \end{array}\right.$
例子 3：Logarithmic barrier
$f(x)=-\sum_{i=1}^{n} \log x_{i}, \quad \operatorname{prox}_{t f}(x)_{i}=\frac{x_{i}+\sqrt{x_{i}^{2}+4 t}}{2}, \quad i=1, \ldots, n$

上面是比較簡單的例子，近似點算子也有一些很容易驗證的代數運算規律：

$f\left(\left[\begin{array}{l} x \\ y \end{array}\right]\right)=g(x)+h(y), \quad \operatorname{prox}_{f}\left(\left[\begin{array}{l} x \\ y \end{array}\right]\right)=\left[\begin{array}{l} \operatorname{prox}_{g}(x) \\ \operatorname{prox}_{h}(y) \end{array}\right]$

$f(x)=g(a x+b), \quad \operatorname{prox}_{f}(x)=\frac{1}{a}\left(\operatorname{prox}_{a^{2} g}(a x+b)-b\right)$ (注意 $a\ne0$ 是標量)

$f(x)=\lambda g(x / \lambda), \quad \operatorname{prox}_{f}(x)=\lambda \operatorname{prox}_{\lambda^{-1} g}(x / \lambda) \quad(\bigstar)$

$f(x)=g(x)+a^{T} x, \quad \quad \operatorname{prox}_{f}(x)=\operatorname{prox}_{g}(x-a)$

$f(x)=g(x)+\frac{\mu}{2}\|x-a\|_{2}^{2}, \quad \operatorname{prox}_{f}(x)=\operatorname{prox}_{\theta g}(\theta x+(1-\theta) a)$ ，其中 $\mu>0,\theta=1/(1+\mu)$

$f(x)=g(Ax+b)$ ，對於一般的 $A$ 並不能得到比較好的性質，但如果 $AA^T=(1/\alpha)I$ ，則有

$\begin{aligned}\operatorname{prox}_{f}(x) &=\left(I-\alpha A^{T} A\right) x+\alpha A^{T}\left(\operatorname{prox}_{\alpha^{-1} g}(A x+b)-b\right) \\&=x-\alpha A^{T}\left(A x+b-\operatorname{prox}_{\alpha^{-1} g}(A x+b)\right)\end{aligned}$

前面幾條都比較容易證明，最後一條證明可以等價於求解
$\begin{aligned}\text { minimize } \quad& g(y)+\frac{1}{2}\|u-x\|_{2}^{2}\\\text { subject to } \quad& A u+b=y\end{aligned}$
可以先求解 $x$ 向超平面 $Au+b=y$ 投影來消去 $u$ ，然後再計算 $\text{prox}_f(y)$ 。

除此之外，有一個非常重要的等式：

Moreau decomposition：
$x=\operatorname{prox}_{f}(x)+\operatorname{prox}_{f^{*}}(x) \quad\text { for all } x$

Remarks：爲什麼說這個式子重要呢？因爲他把原函數和共軛函數的 proximal mapping 聯繫起來了，如果其中一個比較難計算，那麼我們可以通過另一個來計算。這個式子可以怎麼理解呢？可以看成是一種正交分解，舉個栗子，如果我們取一個子空間 $L$ ，他的正交空間爲 $L^\perp$ ，令函數 $f$ 爲子空間 $L$ 的指示函數也即 $f=\delta_L$ ，那麼很容易驗證共軛函數 $f^\star=\delta_{L^\perp}$ 。而根據定義也可以得到 $\text{prox}_f(x)$ 恰好就是 $x$ 在子空間 $L$ 上的投影，記爲 $P_L(x)=\text{prox}_f(x)$ ，同樣的 $P_{L^\perp}(x)=\text{prox}_{f^\star}(x)$ ，因此上面的 Moreau decomposition 就可以寫爲 $x=P_L(x)+P_{L^\perp}(x)$ ，這正好就是一個正交分解。可以根據下圖理解

如果對原始的 Moreau decomposition 做簡單的代數變換，就可以得到 $\lambda>0$
$x=\operatorname{prox}_{\lambda f}(x)+\lambda \operatorname{prox}_{\lambda^{-1} f^{*}}(x / \lambda) \quad \text { for all } x$
證明過程用到了共軛函數的性質 $(\lambda f)^{\star}(y)=\lambda f^{\star}(y / \lambda)$ 。

後面兩個小節則主要是近似點算子的應用，一個是計算投影，另一個是與支撐函數、距離相關的內容。

4. 投影

爲什麼突然講到投影呢？因爲對指示函數應用近似點算子，實質上就是在計算投影。舉個栗子就明白了：對於集合 $C$ 與集合外一點 $x$ ， $x$ 向集合 $C$ 的投影可以表示爲
$\begin{aligned}\text { minimize } \quad& \frac{1}{2}\|y-x\|_{2}^{2}\\\text { subject to } \quad& y\in C\end{aligned}$
若投影點爲 $y^\star$ ，則這可以等價表示爲
$\begin{aligned}y^\star &= \arg\min_y \frac{1}{2}\|y-x\|_{2}^{2}+\delta_C(y) \\&= \text{prox}_{\delta}(x)\end{aligned}$
因此 $\text{prox}_{\delta}(x)$ 就是 $x$ 向集合 $C$ 的投影點(對於 $x\in C$ 同樣成立)。那麼只要我們取不同的 $C$ ，就能得到各種類型集合的投影表達式，下面舉一些例子。

超平面： $C=\{x|a^Tx=b\}$ with $a\ne0$
$P_{C}(x)=x+\frac{b-a^{T} x}{\|a\|_{2}^{2}} a$
仿射集： $C=\{x | A x=b\}\left(\text { with } A \in \mathbf{R}^{p \times n} \text { and } \operatorname{rank}(A)=p\right)$
$P_{C}(x)=x+A^{T}\left(A A^{T}\right)^{-1}(b-A x)$
半空間： $C=\{x|a^Tx\le b\}$ with $a\ne0$
$P_{C}(x)=\begin{cases}x+\frac{b-a^{T} x}{\|a\|_{2}^{2}} a & \text {if } a^{T} x>b \\ x & \text {if } a^{T} x \leq b\end{cases}$
矩形： $C=[l, u]=\left\{x \in \mathbf{R}^{n} | l \leq x \leq u\right\}$
$P_{C}(x)_{k}=\left\{\begin{array}{ll}l_{k} & x_{k} \leq l_{k} \\x_{k} & l_{k} \leq x_{k} \leq u_{k} \\u_{k} & x_{k} \geq u_{k}\end{array}\right.$
非負象限： $C=R_+^n$
$P_{C}(x)=x_{+}=\left(\max \left\{0, x_{1}\right\}, \max \left\{0, x_{2}\right\}, \ldots, \max \left\{0, x_{n}\right\}\right)$
概率單形： $C=\left\{x | \mathbf{1}^{T} x=1, x \geq 0\right\}$
$P_{C}(x)=(x-\lambda \mathbf{1})_{+}$
其中 $\lambda$ 由以下方程解出
$\mathbf{1}^{T}(x-\lambda \mathbf{1})_{+}=\sum_{i=1}^{n} \max \left\{0, x_{k}-\lambda\right\}=1$
這個的證明有一點難度，關鍵是首先要把約束條件 $x\ge0$ 轉換爲指示函數表示
$\begin{aligned}\text { minimize } \quad& \frac{1}{2}\|y-x\|_{2}^{2} + \delta_{R_+^n}(y) \\\text { subject to } \quad& \mathbf{1}^{T} y=1\end{aligned}$
然後將拉格朗日函數分解成求和的形式
$\begin{array}{l}\frac{1}{2}\|y-x\|_{2}^{2}+\delta_{\mathbf{R}_{+}^{n}}(y)+\lambda\left(\mathbf{1}^{T} y-1\right) \\\quad=\quad \sum_{k=1}^{n}\left(\frac{1}{2}\left(y_{k}-x_{k}\right)^{2}+\delta_{\mathbf{R}_{+}}\left(y_{k}\right)+\lambda y_{k}\right)-\lambda\end{array}$
對上面這個求和項進行分情況討論就能得到解析表達式了，不過真的很繁瑣。

超平面與矩形交集： $C=\{x|a^Tx=b,l\preceq x\preceq u\}$
$P_{C}(x)=P_{[l,u]}(x-\lambda a)$
其中 $\lambda$ 由以下方程解出
$a^{T} P_{[l, u]}(x-\lambda a)=b$
證明跟上面的概率單形是類似的，也需要拆寫成多項求和的形式分別求解。

歐幾里得球： $C=\{x| \Vert x\Vert_2\le1\}$
$P_{C}(x)=\begin{cases}\frac{x}{\|x\|_{2}} & \text {if } \Vert x\Vert_2>1 \\ x & \text {if } \Vert x\Vert_2\le1\end{cases}$
1 範數球： $C=\{x| \Vert x\Vert_1\le1\}$

若 $\Vert x\Vert_1\le1$ 則 $P_C(x)=x$ ；否則
$P_{C}(x)_{k}=\operatorname{sign}\left(x_{k}\right) \max \left\{\left|x_{k}\right|-\lambda, 0\right\}=\left\{\begin{array}{ll}x_{k}-\lambda & x_{k}>\lambda \\0 & -\lambda \leq x_{k} \leq \lambda \\x_{k}+\lambda & x_{k}<-\lambda\end{array}\right.$
其中 $\lambda$ 由以下等式獲得
$\sum_{k=1}^n \max \{\vert x\vert_k-\lambda, 0\}=1$
證明業與前面的類似，需要寫成求和項的形式，然後對每一項求解。

二階錐： $C=\{(x,t)\in R^{n\times 1}| \Vert x\Vert_2 \le t \}$
$P_{C}(x,t)=\begin{cases}(x,t) & \text {if } \Vert x\Vert_2\le t \\ (0,0) & \text {if } \Vert x\Vert_2\le -t \\\frac{t+\|x\|_{2}}{2\|x\|_{2}}\left[\begin{array}{c} x \\ \|x\|_{2} \end{array}\right] & \text {if } \Vert x\Vert_2> \vert t\vert \end{cases}$
正定錐： $C=S^n_+$
$P_{C}(X)=\sum_{i=1}^{n} \max \left\{0, \lambda_{i}\right\} q_{i} q_{i}^{T}$
其中 $X=\sum_i \lambda_i q_iq_i^T$

5. 支撐函數、範數與距離

這一小節標題看起來很複雜，牽涉到了支撐函數、範數、到集合的距離，但實際上都還是在計算投影，爲什麼這麼說呢？回憶一下，支撐函數的共軛函數是不是 $\delta$ 函數？範數的共軛函數是不是 $\delta$ 函數？到集合的距離是不是就等於到投影點的距離？所以這一小節是上一小節“投影”的自然延伸，其中爲了把原函數與共軛函數聯繫在一起，用到了 Moreau decomposition。我們一個一個來看。
$x=\operatorname{prox}_{f}(x)+\operatorname{prox}_{f^{*}}(x) \quad\text { for all } x$
支撐函數： $f(x)=\sup_{y\in C}x^Ty,f^\star(y)=\delta_C(y)$ ，因此近似點算子爲
$\begin{aligned}\operatorname{prox}_{t f}(x) &=x-t \operatorname{prox}_{t^{-1} f^{*}}(x / t) \\&=x-t P_{C}(x / t)\end{aligned}$
範數： $f(x)=\Vert x\Vert,f^\star(y)=\delta_B(y)$ ，其中 $B=\{y| \Vert y\Vert_\star \le 1\}$ ，近似點算子爲
$\begin{aligned}\operatorname{prox}_{t f}(x) &=x-t \operatorname{prox}_{t^{-1} f^{*}}(x / t) \\&=x-t P_{B}(x / t) \\&=x- P_{tB}(x)\end{aligned}$
其中 $tB=\{y| \Vert y\Vert_\star \le t\}$

與一點的距離： $f(x)=\Vert x-a\Vert$ ，可以取 $g(x)=\Vert x\Vert$
$\begin{aligned}\operatorname{prox}_{t f}(x) &=a + \operatorname{prox}_{tg}(x-a) \\&=a+x-a-tP_B(\frac{x-a}{t}) \\&=x- P_{tB}(x-a)\end{aligned}$
到集合的距離：到閉凸集 $C$ 的距離定義爲 $d(x)=\inf_{y\in C}\Vert x-y\Vert_2$
$\operatorname{prox}_{t d}(x)=\left\{\begin{array}{ll}x+\frac{t}{d(x)}\left(P_{C}(x)-x\right) & d(x) \geq t \\P_{C}(x) & \text { otherwise }\end{array}\right.$
如果是距離取平方 $f(x)=d(x)^2/2$ ，則有
$\operatorname{prox}_{t f}(x)=\frac{1}{1+t} x+\frac{t}{1+t} P_{C}(x)$
這個證明貼在下面

最後給我的博客打個廣告，歡迎光臨
https://glooow1024.github.io/
https://glooow.gitee.io/

前面的一些博客鏈接如下
凸優化專欄
 凸優化學習筆記 1：Convex Sets
凸優化學習筆記 2：超平面分離定理
 凸優化學習筆記 3：廣義不等式
 凸優化學習筆記 4：Convex Function
凸優化學習筆記 5：保凸變換
 凸優化學習筆記 6：共軛函數
 凸優化學習筆記 7：擬凸函數 Quasiconvex Function
凸優化學習筆記 8：對數凸函數
 凸優化學習筆記 9：廣義凸函數
 凸優化學習筆記 10：凸優化問題
 凸優化學習筆記 11：對偶原理
 凸優化學習筆記 12：KKT條件
 凸優化學習筆記 13：KKT條件 & 互補性條件 & 強對偶性
 凸優化學習筆記 14：SDP Representablity
最優化方法 15：梯度方法
 最優化方法 16：次梯度
 最優化方法 17：次梯度下降法
 最優化方法 18：近似點算子 Proximal Mapping
最優化方法 19：近似梯度下降
 最優化方法 20：對偶近似點梯度下降法
 最優化方法 21：加速近似梯度下降方法
 最優化方法 22：近似點算法 PPA
最優化方法 23：算子分裂法 & ADMM
最優化方法 24：ADMM

最優化方法 18：近似點算子 Proximal Mapping

文章目錄

1. 閉函數

2. 共軛函數

3. 近似點算子

4. 投影

5. 支撐函數、範數與距離

vue項目獲取富文本編輯器wangEditor內容導出爲word（html轉word格式並下載）

dotnet C# 創建 X11 應用時設置窗口背景顏色

Navicat安裝與激活教程

TDengine docker安裝方法

vue3組件通信與props

sapui5

Alpine Linux apk add DNS lookup error

部分JDK版本的發佈時間

工作中用到的腳本合集

合併代碼時Beyond Compare設置

凸優化學習筆記 15：梯度方法

最優化方法 23：算子分裂法 & ADMM

最優化方法 22：近似點算法 PPA

最優化方法 18：近似點算子 Proximal Mapping

凸優化學習筆記 2：超平面分離定理

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結