最優化方法 23:算子分裂法 & ADMM

前面章節中,針對 minf(x)+g(Ax)\min f(x)+g(Ax) 形式的優化問題,我們介紹瞭如 PG、dual PG、ALM、PPA 等方法。但是比如 PG 方法爲
xk+1=proxth(xktkg(xk)) x_{k+1}=\text{prox}_{th}(x_k-t_k\nabla g(x_k))
ALM 的第一步要解一個聯合優化問題
(xk+1,yk+1)=argminx,yLt(x,y,zk) (x^{k+1},y^{k+1}) = \arg\min_{x,y} L_t(x,y,z^k)
他們都把 f,gf,g 耦合在一起了。如果我們看原始問題 minf(x)+g(Ax)\min f(x)+g(Ax) 實際上就是要找 xx^\star 使得 0f(x)+ATg(x)0\in\partial f(x^\star)+A^T\partial g(x^\star),這一節要介紹的 Douglas-Rachford splitting method 實際上就是要 decoupling。

1.Douglas-Rachford splitting Algorithm

針對如下優化問題,其中 f,gf,g 都是閉凸函數
minf(x)+g(x) \min f(x)+g(x)

先給出 DR-splitting 方法的迭代方程
xk+1=proxf(yk)yk+1=yk+proxg(2xk+1yk)xk+1 \begin{array}{l} x_{k+1}=\operatorname{prox}_{f}\left(y_{k}\right) \\ y_{k+1}=y_{k}+\operatorname{prox}_{g}\left(2 x_{k+1}-y_{k}\right)-x_{k+1} \end{array}

爲什麼叫做 splitting 呢?回憶 PPA 是不是需要求解 x+=proxt(f+g)(x)x^+ = \text{prox}_{t(f+g)}(x),而這裏則可以分開依次求 proxf\text{prox}_fproxg\text{prox}_g,所以被稱爲 splitting。這個迭代方程看起來沒有規律,那麼他能不能收斂呢?答案當然是可以的,xkx_k 最終會收斂到 0f(x)+g(x)0\in \partial f(x)+\partial g(x),這個證明放到後面,先來從別的方面認識一下這個方法。

首先 f,gf,g 並沒有區分,因此可以交換兩者的位置,那麼迭代方程也可以寫爲
xk+1=proxg(yk)yk+1=yk+proxf(2xk+1yk)xk+1 \begin{array}{l} x_{k+1}=\operatorname{prox}_{g}\left(y_{k}\right) \\ y_{k+1}=y_{k}+\operatorname{prox}_{f}\left(2 x_{k+1}-y_{k}\right)-x_{k+1} \end{array}
但需要注意的是這兩種不同的迭代方程產生的序列是不一樣的,也可能會影響收斂的速度,因此這個方法關於 f,gf,g 是不對稱的。

如果把 xk+1x_{k+1} 帶入到第二步,整個過程實際上可以用一個迭代方程表示
yk+1=F(y)F(y)=y+proxg(2proxf(y)y)proxf(y) y_{k+1} = F(y) \\ F(y)=y+\operatorname{prox}_{g}\left(2 \operatorname{prox}_{f}(y)-y\right)-\operatorname{prox}_{f}(y)
這是個什麼式子呢?不動點迭代(fixed-point iteration)!就是在找函數 F(y)F(y) 的不動點。這個函數 F(y)F(y) 是連續的嗎?是的,這是因爲上一節中我們證明了 proxh(x)\text{prox}_{h}(x) 滿足firmly nonexpansive(co-coercivite) 性質
(proxh(x)proxh(y))T(xy)proxh(x)proxh(y)22 \left(\operatorname{prox}_{h}(x)-\operatorname{prox}_{h}(y)\right)^{T}(x-y) \geq\left\|\operatorname{prox}_{h}(x)-\operatorname{prox}_{h}(y)\right\|_{2}^{2}
因此近似點算子是 Lipschitz continuous 的,所以 F(y)F(y) 也是連續的。那麼假如最終找到了不動點 yy,他有什麼性質呢?
y=F(y)    0f(proxf(y))+g(proxf(y)) y=F(y) \\ \iff 0 \in \partial f\left(\operatorname{prox}_{f}(y)\right)+\partial g\left(\operatorname{prox}_{f}(y)\right)
證明:對於不動點 y=F(y)y=F(y),取 x=proxf(y)x=\text{prox}_f(y),我們有
x=proxf(y),F(y)=y    x=proxf(y),x=proxg(2xy)    yxf(x),xyg(x) \begin{aligned}x=\text{prox}_f(y),&\quad F(y)=y \\ \iff x=\text{prox}_f(y),&\quad x=\text{prox}_g(2x-y) \\\iff y-x\in \partial f(x),&\quad x-y\in\partial g(x)\end{aligned}
其中第一個等價性只需要把 xx 帶入到 F(y)F(y) 中,由此我們就可以得到
0=(yx)+(xy)f(x)+g(x) 0=(y-x)+(x-y)\in\partial f(x)+\partial g(x)
自然而然地我們證明了一開始提到的 xkx_{k} 的收斂性。

等價形式:下面這部分則主要是對原始形式做了一些變量代換,使其看起來更簡潔,並沒有新的內容。首先交換 x,yx,y 的迭代次序
yk+1=yk+proxg(2xkyk)xkxk+1=proxf(yk+1) \begin{array}{l} y_{k+1}=y_{k}+\operatorname{prox}_{g}\left(2 x_{k}-y_{k}\right)-x_{k} \\ x_{k+1}=\operatorname{prox}_{f}\left(y_{k+1}\right) \end{array}
引入新變量 uk+1=proxg(2xkyk),wk=xkyku_{k+1}=\text{prox}_g(2x_k-y_k),w_k=x_k-y_k
uk+1=proxg(xk+wk)xk+1=proxf(uk+1wk)wk+1=wk+xk+1uk+1 \begin{aligned} u_{k+1} &=\operatorname{prox}_{g}\left(x_{k}+w_{k}\right) \\ x_{k+1} &=\operatorname{prox}_{f}\left(u_{k+1}-w_{k}\right) \\ w_{k+1} &=w_{k}+x_{k+1}-u_{k+1} \end{aligned}
放縮:除此之外,我們還可以對原始問題做一個放縮變爲 mintf(x)+tg(x)\min tf(x)+tg(x),那麼迭代方程就變爲如下形式,並沒有本質的變化
uk+1=proxtg(xk+wk)xk+1=proxtf(uk+1wk)wk+1=wk+xk+1uk+1 \begin{aligned} u_{k+1} &=\operatorname{prox}_{tg}\left(x_{k}+w_{k}\right) \\ x_{k+1} &=\operatorname{prox}_{tf}\left(u_{k+1}-w_{k}\right) \\ w_{k+1} &=w_{k}+x_{k+1}-u_{k+1} \end{aligned}
鬆弛:前面降到了實際上是在對 yy 做不動點迭代,那麼我們可以改爲
yk+1=yk+ρk(F(yk)yk) y_{k+1}=y_{k}+\rho_{k}\left(F\left(y_{k}\right)-y_{k}\right)
如果 1<ρk<21<\rho_k<2 就是超鬆弛,如果 0<ρk<10<\rho_k<1 就是低鬆弛。這個時候迭代方程稍微複雜了一點點
uk+1=proxg(xk+wk)xk+1=proxf(xk+ρk(uk+1xk)wk)wk+1=wk+xk+1xk+ρk(xkuk+1) \begin{aligned} u_{k+1} &=\operatorname{prox}_{g}\left(x_{k}+w_{k}\right) \\ x_{k+1} &=\operatorname{prox}_{f}\left(x_{k}+\rho_{k}\left(u_{k+1}-x_{k}\right)-w_{k}\right) \\ w_{k+1} &=w_{k}+x_{k+1}-x_{k}+\rho_{k}\left(x_{k}-u_{k+1}\right) \end{aligned}
共軛函數:根據 Moreau decomposition proxg(x)+proxg(x)=x\text{prox}_g(x)+\text{prox}_{g^\star}(x)=x,如果 proxg\text{prox}_g 比較難計算,我們就可以換到共軛函數上去計算
xk+1=proxf(yk)yk+1=xk+1proxg(2xk+1yk) \begin{array}{l} x_{k+1}=\operatorname{prox}_{f}\left(y_{k}\right) \\ y_{k+1}=x_{k+1}-\operatorname{prox}_{g^{*}}\left(2 x_{k+1}-y_{k}\right) \end{array}
下面舉幾個例子,主要就是練習近似點算子的計算,因爲 DR-splitting 方法主要就是在計算 f,gf,g 的近似點。

例子 1:變量 XSnX\in S^n,參數 CS+n,γ>0C\in S_+^n,\gamma>0
 minimize tr(CX)logdetX+γi>jXij \text { minimize } \quad \operatorname{tr}(C X)-\log \operatorname{det} X+\gamma \sum_{i>j}\left|X_{i j}\right|
我們取 f(X)=tr(CX)logdetX,g(X)=γi>jXijf(X)=\operatorname{tr}(C X)-\log \operatorname{det} X,\quad g(X)=\gamma \sum_{i>j}\left|X_{i j}\right|

X=proxtf(X^)    CX1+(1/t)(XX^)X=\text{prox}_{tf}(\hat{X}) \iff C-X^{-1}+(1/t)(X-\hat{X}),這個方程可以通過對 X^tC\hat{X}-tC 進行特徵值分解求解

X=proxtg(X^)X=\text{prox}_{tg}(\hat{X}) 可以通過軟閾值(soft-thresholding)求解

例子 2:考慮等式約束的優化問題
minf(x)s.t.xV \begin{aligned} \min \quad& f(x)\\ \text{s.t.} \quad& x\in V \end{aligned}
等價於 g=δVg=\delta_V
xk+1=proxg(yk)yk+1=yk+PV(2xk+1yk)xk+1 \begin{array}{l} x_{k+1}=\operatorname{prox}_{g}\left(y_{k}\right) \\ y_{k+1}=y_{k}+P_V\left(2 x_{k+1}-y_{k}\right)-x_{k+1} \end{array}
例子 3:考慮這種複合形式 minf1(x)+f2(Ax)\min f_1(x)+f_2(Ax),可以引入等式約束
minf1(x)+f2(y)s.t.Ax=y \begin{aligned} \min \quad& f_1(x)+f_2(y) \\ \text{s.t.} \quad& Ax=y \end{aligned}
f(x1,x2)=f1(x1)+f2(x2)f(x_1,x_2)=f_1(x_1)+f_2(x_2),他的近似點算子是可分的
proxtf(x1,x2)=(proxtf1(x1),proxtf2(x2)) \operatorname{prox}_{t f}\left(x_{1}, x_{2}\right)=\left(\operatorname{prox}_{t f_{1}}\left(x_{1}\right), \operatorname{prox}_{t f_{2}}\left(x_{2}\right)\right)
然後像例子 2 一樣,向超平面 [A,I][x1,x2]T=0[A,-I][x_1,x_2]^T=0 做個投影。

2. ADMM

交替方向乘子法(Alternating Direction Method of Multipliers)也是一個很重要而且很受歡迎的算法,下一節還會詳細講,這裏主要是看看他與 DR-splitting 的聯繫。

這裏還是先給出結論:DR-splitting 中取 ρk=1\rho_k=1,應用在對偶問題上,就等價於原問題的 ADMM 算法。我們先推導對偶問題上的 DR-splitting 迭代形式,然後再引出 ADMM 方法。

對可分離的凸優化問題
(P)minf1(x1)+f2(x2)s.t.A1x1+A2x2=b(D)maxbTzf1(A1Tz)f2(A2Tz) \begin{aligned} (P)\min \quad& f_1(x_1)+f_2(x_2) \\ \text{s.t.} \quad& A_1x_1+A_2x_2=b \\ (D)\max \quad& -b^{T} z-f_{1}^{*}\left(-A_{1}^{T} z\right)-f_{2}^{*}\left(-A_{2}^{T} z\right) \end{aligned}
g(z)=bTz+f1(A1Tz),f(z)=f2(A2Tz)g(z)=b^{T} z+f_{1}^{\star}\left(-A_{1}^{T} z\right), f(z)=f_{2}^{\star}\left(-A_{2}^{T} z\right),DR 方法爲
u+=proxtg(z+w),z+=proxtf(u+w),w+=w+z+u+ u^{+}=\operatorname{prox}_{t g}(z+w), \quad z^{+}=\operatorname{prox}_{t f}\left(u^{+}-w\right), \quad w^{+}=w+z^{+}-u^{+}
第一步:他等價於計算
x^1=argminx1(f1(x1)+zT(A1x1b)+t2A1x1b+w/t22)u+=z+w+t(A1x^1b) \begin{aligned} \hat{x}_{1} &=\underset{x_{1}}{\operatorname{argmin}}\left(f_{1}\left(x_{1}\right)+z^{T}\left(A_{1} x_{1}-b\right)+\frac{t}{2}\left\|A_{1} x_{1}-b+w / t\right\|_{2}^{2}\right) \\ u^{+} &=z+w+t\left(A_{1} \hat{x}_{1}-b\right) \end{aligned}
這個證明很不直觀,上一節分析 PPA 與 ALM 的關係的時候,證明了一個很不直觀的結論:對 h(z)=g(z)+f(ATz)h(z)=g^{\star}(z)+f^{\star}\left(-A^{T} z\right),有
z+=proxth(z)=z+t(Ax^y^)(x^,y^)=argminx,y(f(x)+g(y)+zT(Axy)+t2Axy22) \begin{aligned}z^+&=\text{prox}_{th}(z) = z+t(A\hat{x}-\hat{y}) \\(\hat{x}, \hat{y})&=\underset{x, y}{\operatorname{argmin}}\left(f(x)+g(y)+z^{T}(A x-y)+\frac{t}{2}\|A x-y\|_{2}^{2}\right)\end{aligned}
第二步:與第一個式子是類似的,等價於
x^2=argminx2(f2(x2)+zTA2x2+t2A1x^1+A2x2b22z+=z+t(A1x^1+A2x^2b) \begin{array}{l}\hat{x}_{2}=\underset{x_{2}}{\operatorname{argmin}}\left(f_{2}\left(x_{2}\right)+z^{T} A_{2} x_{2}+\frac{t}{2}\left\|A_{1} \hat{x}_{1}+A_{2} x_{2}-b\right\|_{2}^{2}\right. \\z^{+}=z+t\left(A_{1} \hat{x}_{1}+A_{2} \hat{x}_{2}-b\right)\end{array}
第三步w+=tA2x^2w^+=tA_2\hat{x}_2

現在我們就可以引出 ADMM 方法了,他包括三個步驟
xk+1,1=argminx~1(f1(x~1)+zkTA1x~1+t2A1x~1+A2xk,2b22)xk+1,2=argminx~2(f2(x~2)+zkTA2x~2+t2A1xk+1,1+A2x~2b22)zk+1=zk+t(A1xk+1,1+A2xk+1,2b) \begin{aligned}x_{k+1,1}&=\underset{\tilde{x}_{1}}{\operatorname{argmin}}\left(f_{1}\left(\tilde{x}_{1}\right)+z_{k}^{T} A_{1} \tilde{x}_{1}+\frac{t}{2}\left\|A_{1} \tilde{x}_{1}+A_{2} x_{k, 2}-b\right\|_{2}^{2}\right) \\x_{k+1,2}&=\underset{\tilde{x}_{2}}{\operatorname{argmin}}\left(f_{2}\left(\tilde{x}_{2}\right)+z_{k}^{T} A_{2} \tilde{x}_{2}+\frac{t}{2}\left\|A_{1} x_{k+1,1}+A_{2} \tilde{x}_{2}-b\right\|_{2}^{2}\right) \\z_{k+1}&=z_{k}+t\left(A_{1} x_{k+1,1}+A_{2} x_{k+1,2}-b\right)\end{aligned}
前兩步分別對應了增廣拉格朗日函數的兩部分,分別對 x1,x2x_1,x_2 進行優化。與原本的 ALM 算法相比,ALM 是每次對 (x1,x2)(x_1,x_2) 進行聯合優化,即
(xk+1,1,xk+1,2)=argminx1,x2Lt(x1,x2,zk)zk+1=zk+t(A1xk+1,1+A2xk+1,2b) \begin{aligned}(x_{k+1,1},x_{k+1,2}) = \arg\min_{x_1,x_2} L_t(x_1,x_2,z_k) \\z_{k+1} = z_k + t\left(A_{1} x_{k+1,1}+A_{2} x_{k+1,2}-b\right)\end{aligned}
另外我們前面還講到了 dual PG 方法跟 ALM 也很像,也是增廣拉格朗日函數先對 x1x_1 優化再對 x2x_2 優化,但注意他跟 ADMM 不同的地方在於:前者對 x1x_1 優化的時候不包含後面的二次正則項,而 ADMM 則包含,寫出來對比一下就知道了
(dual PG)x^=argminx(f(x)+zTAx)y^=argminy(g(y)zTy+t2Ax^y22)(ADMM)xk+1,1=argminx~1(f1(x~1)+zkTA1x~1+t2A1x~1+A2xk,2b22)xk+1,2=argminx~2(f2(x~2)+zkTA2x~2+t2A1xk+1,1+A2x~2b22) \begin{aligned} (dual\ PG)\hat{x} &=\underset{x}{\operatorname{argmin}}\left(f(x)+z^{T} A x\right) \\ \hat{y} &=\underset{y}{\operatorname{argmin}}\left(g(y)-z^{T} y+\frac{t}{2}\|A \hat{x}-y\|_{2}^{2}\right) \\ (ADMM) x_{k+1,1}&=\underset{\tilde{x}_{1}}{\operatorname{argmin}}\left(f_{1}\left(\tilde{x}_{1}\right)+z_{k}^{T} A_{1} \tilde{x}_{1}+\frac{t}{2}\left\|A_{1} \tilde{x}_{1}+A_{2} x_{k, 2}-b\right\|_{2}^{2}\right) \\ x_{k+1,2}&=\underset{\tilde{x}_{2}}{\operatorname{argmin}}\left(f_{2}\left(\tilde{x}_{2}\right)+z_{k}^{T} A_{2} \tilde{x}_{2}+\frac{t}{2}\left\|A_{1} x_{k+1,1}+A_{2} \tilde{x}_{2}-b\right\|_{2}^{2}\right) \end{aligned}

3. 收斂性分析

DR 方法可以看成是一個不動點迭代,因此要證明收斂性,我們需要證明以下兩個結論:

  1. yky_k 收斂到 F(y)F(y) 的不動點 yy^\star
  2. xk+1=proxf(yk)x_{k+1}=\text{prox}_f(y_k) 收斂到 x=proxf(y)x^\star=\text{prox}_f(y^\star)

在證明收斂性之前,需要先定義兩個函數
F(y)=y+proxg(2proxf(y)y)proxf(y)G(y)=yF(y)=proxf(y)proxg(2proxf(y)y) \begin{aligned}F(y) &=y+\operatorname{prox}_{g}\left(2 \operatorname{prox}_{f}(y)-y\right)-\operatorname{prox}_{f}(y) \\G(y) &=y-F(y) \\&=\operatorname{prox}_{f}(y)-\operatorname{prox}_{g}\left(2 \operatorname{prox}_{f}(y)-y\right)\end{aligned}
需要用到的是這兩個函數的 firmly nonexpansive(co-coercive with parameter 1) 的性質
(F(y)F(y^))T(yy^)F(y)F(y^)22 for all y,y^(G(y)G(y^))T(yy^)G(y)G(y^)22 \begin{aligned}(F(y)-F(\hat{y}))^{T}(y-\hat{y}) &\geq\|F(y)-F(\hat{y})\|_{2}^{2} \quad \text { for all } y, \hat{y} \\(G(y)-G(\hat{y}))^{T}(y-\hat{y}) &\geq\|G(y)-G(\hat{y})\|_{2}^{2}\end{aligned}
證明:令 x=proxf(y),x^=proxf(y^)x=\text{prox}_f(y),\hat{x}=\text{prox}_f(\hat{y})v=proxg(2xy),v^=proxg(2x^y^)v=\operatorname{prox}_{g}(2 x-y), \quad \hat{v}=\operatorname{prox}_{g}(2 \hat{x}-\hat{y})

根據 F(y)=y+vx,F(y^)=y^+v^x^F(y)=y+v-x,F(\hat{y})=\hat{y}+\hat{v}-\hat{x}
(F(y)F(y^))T(yy^)(y+vxy^v^+x^)T(yy^)(xx^)T(yy^)+xx^22=(vv^)T(yy^)+yxy^+x^22=(vv^)T(2xy2x^+y^)vv^22+F(y)F(y^)22F(y)F(y^)22 \begin{array}{l}(F(y)-F(\hat{y}))^{T}(y-\hat{y}) \\\quad \geq \quad(y+v-x-\hat{y}-\hat{v}+\hat{x})^{T}(y-\hat{y})-(x-\hat{x})^{T}(y-\hat{y})+\|x-\hat{x}\|_{2}^{2} \\\quad=(v-\hat{v})^{T}(y-\hat{y})+\|y-x-\hat{y}+\hat{x}\|_{2}^{2} \\\quad=(v-\hat{v})^{T}(2 x-y-2 \hat{x}+\hat{y})-\|v-\hat{v}\|_{2}^{2}+\|F(y)-F(\hat{y})\|_{2}^{2} \\\quad \geq\|F(y)-F(\hat{y})\|_{2}^{2}\end{array}
其中用到了 prox\text{prox} 算子的firm nonexpansiveness 性質
(xx^)T(yy^)xx^22,(2xy2x^+y^)T(vv^)vv^22 (x-\hat{x})^{T}(y-\hat{y}) \geq\|x-\hat{x}\|_{2}^{2}, \quad(2 x-y-2 \hat{x}+\hat{y})^{T}(v-\hat{v}) \geq\|v-\hat{v}\|_{2}^{2}
證畢。

然後我們就可以根據以下的不動點迭代方程證明前面提到的收斂性
yk+1=(1ρk)yk+ρkF(yk)=ykρkG(yk) \begin{aligned}y_{k+1} &=\left(1-\rho_{k}\right) y_{k}+\rho_{k} F\left(y_{k}\right) \\&=y_{k}-\rho_{k} G\left(y_{k}\right)\end{aligned}
其中需要假設 FF 的不動點存在,且滿足 0f(x)+g(x)0\in\partial f(x)+\partial g(x),以及鬆弛變量 ρk[ρmin,ρmax],0<ρmin<ρmax<2\rho_k\in [\rho_{\min},\rho_{\max}],0<\rho_{\min}<\rho_{\max}<2

證明:設 yy^\starF(y)F(y) 的不動點(也即 G(y)G(y) 的零點),考慮第 kk 步迭代
y+y22yy22=2(y+y)T(yy)+y+y22=2ρG(y)T(yy)+ρ2G(y)22ρ(2ρ)G(y))22MG(y))22 \begin{aligned}\left\|y^{+}-y^{\star}\right\|_{2}^{2}-\left\|y-y^{\star}\right\|_{2}^{2} &=2\left(y^{+}-y\right)^{T}\left(y-y^{\star}\right)+\left\|y^{+}-y\right\|_{2}^{2} \\&=-2 \rho G(y)^{T}\left(y-y^{\star}\right)+\rho^{2}\|G(y)\|_{2}^{2} \\&\leq-\rho(2-\rho) \| G(y)) \|_{2}^{2} \\&\leq-M \| G(y)) \|_{2}^{2}\end{aligned}
其中 M=ρmin(2ρmax)M=\rho_{\min}(2-\rho_{\max})。上式表明
Mk=0G(yk)22y0y22,G(y)20 M \sum_{k=0}^{\infty}\left\|G\left(y_{k}\right)\right\|_{2}^{2} \leq\left\|y_{0}-y^{\star}\right\|_{2}^{2}, \quad \| G(y)\|_2\to 0
還可以得到 yky2\| y_k-y^\star\|_2 是單調不增的,因此 yky_k 有界。

由於 yky2\| y_k-y^\star\|_2 單調不增,故極限 limkyky2\lim_{k\to \infty} \| y_k-y^\star\|_2 存在;又由於 yky_k 有界,故存在收斂子序列。

yˉk\bar{y}_k 爲一個收斂子序列,收斂值爲 yˉ\bar{y},根據 GG 的連續性有 0=limkG(yˉk)=G(yˉ)0=\lim _{k \rightarrow \infty} G\left(\bar{y}_{k}\right)=G(\bar{y}),因此 yˉ\bar{y}GG 的l零點,且極限 limkykyˉ2\lim_{k\to \infty} \| y_k-\bar{y}\|_2 存在。

接着需要證明唯一性,假設 uˉ,vˉ\bar{u},\bar{v} 是兩個不同的極限點,收斂極限 limkykuˉ2,limkykvˉ2\lim_{k\to \infty} \| y_k-\bar{u}\|_2,\lim_{k\to \infty} \| y_k-\bar{v}\|_2 存在,因此
uˉvˉ2=limkykuˉ2=limkykvˉ2=0 \|\bar{u}-\bar{v}\|_{2}=\lim _{k \rightarrow \infty}\left\|y_{k}-\bar{u}\right\|_{2}=\lim _{k \rightarrow \infty}\left\|y_{k}-\bar{v}\right\|_{2}=0
證畢。

最後給我的博客打個廣告,歡迎光臨
https://glooow1024.github.io/
https://glooow.gitee.io/

前面的一些博客鏈接如下
凸優化專欄
凸優化學習筆記 1:Convex Sets
凸優化學習筆記 2:超平面分離定理
凸優化學習筆記 3:廣義不等式
凸優化學習筆記 4:Convex Function
凸優化學習筆記 5:保凸變換
凸優化學習筆記 6:共軛函數
凸優化學習筆記 7:擬凸函數 Quasiconvex Function
凸優化學習筆記 8:對數凸函數
凸優化學習筆記 9:廣義凸函數
凸優化學習筆記 10:凸優化問題
凸優化學習筆記 11:對偶原理
凸優化學習筆記 12:KKT條件
凸優化學習筆記 13:KKT條件 & 互補性條件 & 強對偶性
凸優化學習筆記 14:SDP Representablity
最優化方法 15:梯度方法
最優化方法 16:次梯度
最優化方法 17:次梯度下降法
最優化方法 18:近似點算子 Proximal Mapping
最優化方法 19:近似梯度下降
最優化方法 20:對偶近似點梯度下降法
最優化方法 21:加速近似梯度下降方法
最優化方法 22:近似點算法 PPA
最優化方法 23:算子分裂法 & ADMM
最優化方法 24:ADMM

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章