前面講了梯度下降法、次梯度下降法,並分析了他們的收斂性。上一節講了近似梯度算子,我們說主要是針對非光滑問題的,這一節就要講近似梯度算子在非光滑優化問題中的應用。先回顧一下上一節最重要的一部分內容:對於指示函數 δ C \delta_C δ C 來說近似梯度算子得到的實際上就是向集合 C C C 的投影。
1. 近似點梯度下降
這一部分考慮的問題主要是
minimize f ( x ) = g ( x ) + h ( x )
\text{minimize } f(x)=g(x)+h(x)
minimize f ( x ) = g ( x ) + h ( x )
這裏面 g g g 是全空間可導的凸函數,dom g = R n \text{dom }g=R^n dom g = R n ,h h h 是存在不可導部分的凸函數,並且一般需要 h h h 的近似點計算較爲簡單。近似點梯度下降算法是什麼呢?
x k + 1 = prox t h ( x k − t k ∇ g ( x k ) )
x_{k+1}=\text{prox}_{th}(x_k-t_k\nabla g(x_k))
x k + 1 = prox t h ( x k − t k ∇ g ( x k ) )
這裏跟之前的梯度下降(GD)和次梯度下降(SD)的形式都不太一樣,實際上看了後面的推導會發現經過轉換他們還是很像的。不過怎麼理解這個式子呢?舉一個例子,假如 h h h 是集合 C C C 的指示函數,那麼這個式子實際上是先沿着 g g g 的梯度走步長 t k t_k t k ,然後再投影到集合 C C C 裏面,可以看下面這張圖。而考慮原始優化問題,min f = g + h \min f=g+h min f = g + h 本身是一個無約束優化問題,但實際上把 h h h 用一個約束函數表示,他就是一個帶約束的優化問題 min g ( x ) , s.t. x ∈ C \min g(x),\text{ s.t. }x\in C min g ( x ) , s.t. x ∈ C ,而近似點梯度下降方法要做的事情就是先優化 g g g ,然後投影到約束區域 C C C 中,可以參考下圖。
根據 prox t h \text{prox}_{th} prox t h 的定義,我們把上面的式子展開可以得到
x + = argmin u ( h ( u ) + 1 2 t ∥ u − x + t ∇ g ( x ) ∥ 2 2 ) = argmin u ( h ( u ) + g ( x ) + ∇ g ( x ) T ( u − x ) + 1 2 t ∥ u − x ∥ 2 2 )
\begin{aligned}
x^{+} &=\underset{u}{\operatorname{argmin}}\left(h(u)+\frac{1}{2 t}\|u-x+t \nabla g(x)\|_{2}^{2}\right) \\
&=\underset{u}{\operatorname{argmin}}\left(h(u)+g(x)+\nabla g(x)^{T}(u-x)+\frac{1}{2 t}\|u-x\|_{2}^{2}\right)
\end{aligned}
x + = u a r g m i n ( h ( u ) + 2 t 1 ∥ u − x + t ∇ g ( x ) ∥ 2 2 ) = u a r g m i n ( h ( u ) + g ( x ) + ∇ g ( x ) T ( u − x ) + 2 t 1 ∥ u − x ∥ 2 2 )
可以發現括號裏面的式子實際上就是在 x x x 附近對光滑的 g g g 進行了二階展開,而 x + x^+ x + 就是對近似後函數取最小值點。再進一步地
0 ∈ t ∂ h ( x + ) + ( x + − x + t ∇ g ( x ) ) ⟹ G t ( x ) : = x − x + t ∈ ∂ h ( x + ) + ∇ g ( x )
0\in t\partial h(x^+) + (x^+-x+t\nabla g(x)) \\
\Longrightarrow G_t(x):=\frac{x-x^+}{t}\in \partial h(x^+)+\nabla g(x)
0 ∈ t ∂ h ( x + ) + ( x + − x + t ∇ g ( x ) ) ⟹ G t ( x ) : = t x − x + ∈ ∂ h ( x + ) + ∇ g ( x )
可以發現 G t ( x ) = ∂ h ( x + ) + ∇ g ( x ) G_t(x)=\partial h(x^+)+\nabla g(x) G t ( x ) = ∂ h ( x + ) + ∇ g ( x ) 實際上就近似爲函數 f f f 的次梯度,但並不嚴格是,因爲 ∂ f ( x ) = ∂ h ( x ) + ∇ g ( x ) \partial f(x)=\partial h(x)+\nabla g(x) ∂ f ( x ) = ∂ h ( x ) + ∇ g ( x ) 。而此時我們也可以將 x + x^+ x + 寫成比較簡單的形式
x + = x − t G t ( x )
x^+ = x-tG_t(x)
x + = x − t G t ( x )
這跟之前的梯度下降法就統一了,並且也說明了 G t ( x ) G_t(x) G t ( x ) 就相當於是 f f f 的梯度。
這裏還需要說明的一點是 G t ( x ) = ( 1 / t ) ( x − prox t h ( x − t ∇ g ( x ) ) G_t(x)=(1/t)(x-\text{prox}_{th}(x-t\nabla g(x)) G t ( x ) = ( 1 / t ) ( x − prox t h ( x − t ∇ g ( x ) ) 這是一個連續函數,這是因爲近似點算子是 Lipschitz 連續的(在下面一小節中會解釋說明),又由於 G t ( x ) = 0 ⟺ x = arg min f ( x ) G_t(x)=0\iff x=\arg\min f(x) G t ( x ) = 0 ⟺ x = arg min f ( x ) ,因此 ∥ x − x + ∥ ≤ ε \Vert x-x^+\Vert\le \varepsilon ∥ x − x + ∥ ≤ ε 就可以作爲 stopping criterion。與之成對比的是非光滑函數的次梯度下降,∥ x − x + ∥ \Vert x-x^+\Vert ∥ x − x + ∥ 就不是一個很好的 stopping criterion,因爲即使 ∥ x − x + ∥ \Vert x-x^+\Vert ∥ x − x + ∥ 很小,也可能離最優解比較遠。
2. 收斂速度分析
在分析收斂速度之前,我們需要首先分析一下 g ( x ) g(x) g ( x ) 和 h ( x ) h(x) h ( x ) 這兩部分函數的性質。
首先是 h h h ,如果 h h h 爲閉的凸函數,那麼 prox h ( x ) = arg min u ( h ( u ) + ( 1 / 2 ) ∥ u − x ∥ 2 ) \text{prox}_h(x)=\arg\min_u\left(h(u)+(1/2)\Vert u-x\Vert^2\right) prox h ( x ) = arg min u ( h ( u ) + ( 1 / 2 ) ∥ u − x ∥ 2 ) 對每個 x x x 一定存在唯一的解。並且 u = prox h ( x ) ⟺ x − u ∈ ∂ h ( u ) u=\text{prox}_h(x) \iff x-u\in \partial h(u) u = prox h ( x ) ⟺ x − u ∈ ∂ h ( u ) ,那麼我們就可以得到 firmly nonexpansive(co-coercivite) 性質:
( prox h ( x ) − prox h ( y ) ) T ( x − y ) ≥ ∥ prox h ( x ) − prox h ( y ) ∥ 2 2
\left(\operatorname{prox}_{h}(x)-\operatorname{prox}_{h}(y)\right)^{T}(x-y) \geq\left\|\operatorname{prox}_{h}(x)-\operatorname{prox}_{h}(y)\right\|_{2}^{2}
( p r o x h ( x ) − p r o x h ( y ) ) T ( x − y ) ≥ ∥ p r o x h ( x ) − p r o x h ( y ) ∥ 2 2
證明過程可以取 u = prox h ( x ) , v = prox h ( y ) u=\text{prox}_h(x),v=\text{prox}_h(y) u = prox h ( x ) , v = prox h ( y ) ,然後根據 x − u ∈ ∂ h ( u ) , y − v ∈ ∂ h ( v ) x-u\in \partial h(u),y-v\in \partial h(v) x − u ∈ ∂ h ( u ) , y − v ∈ ∂ h ( v ) ,再利用次梯度算子的單調性質就可以得到。之前在梯度下降法中第一次講到 co-coercive 性質的時候也提到,他跟 Lipschitz continuous 性質實際上是等價的,因此我們也有(nonexpansiveness 性質)
∥ prox h ( x ) − prox h ( y ) ∥ 2 ≤ ∥ x − y ∥ 2
\left\|\operatorname{prox}_{h}(x)-\operatorname{prox}_{h}(y)\right\|_2 \le \left\|x-y\right\|_2
∥ p r o x h ( x ) − p r o x h ( y ) ∥ 2 ≤ ∥ x − y ∥ 2
然後我們再來看函數 g g g 的性質,類似前面梯度下降法中的兩個重要性質:
L-smooth :L 2 x T x − g ( x ) \frac{L}{2}x^Tx-g(x) 2 L x T x − g ( x ) convex
m-strongly convex :g ( x ) − m 2 x T x g(x)-\frac{m}{2}x^Tx g ( x ) − 2 m x T x convex
然後就可以得到兩個二次的界
m t 2 2 ∥ G t ( x ) ∥ 2 2 ≤ g ( x − t G t ( x ) ) − g ( x ) + t ∇ g ( x ) T G t ( x ) ≤ L t 2 2 ∥ G t ( x ) ∥ 2 2
\frac{m t^{2}}{2}\left\|G_{t}(x)\right\|_{2}^{2} \leq g\left(x-t G_{t}(x)\right)-g(x)+t \nabla g(x)^{T} G_{t}(x) \leq \frac{L t^{2}}{2}\left\|G_{t}(x)\right\|_{2}^{2}
2 m t 2 ∥ G t ( x ) ∥ 2 2 ≤ g ( x − t G t ( x ) ) − g ( x ) + t ∇ g ( x ) T G t ( x ) ≤ 2 L t 2 ∥ G t ( x ) ∥ 2 2
如果取 0 < t ≤ 1 / L 0< t\le 1/L 0 < t ≤ 1 / L ,那麼就有 L t ≤ 1 , m t ≤ 1 Lt\le1,mt\le 1 L t ≤ 1 , m t ≤ 1 。
結合上面對 g g g 和 h h h 性質的分析,就能得到下面這個非常重要 的式子:
f ( x − t G t ( x ) ) ≤ f ( z ) + G t ( x ) T ( x − z ) − t 2 ∥ G t ( x ) ∥ 2 2 − m 2 ∥ x − z ∥ 2 2 ( ★ )
f\left(x-t G_{t}(x)\right) \leq f(z)+G_{t}(x)^{T}(x-z)-\frac{t}{2}\left\|G_{t}(x)\right\|_{2}^{2}-\frac{m}{2}\|x-z\|_{2}^{2} \qquad (\bigstar)
f ( x − t G t ( x ) ) ≤ f ( z ) + G t ( x ) T ( x − z ) − 2 t ∥ G t ( x ) ∥ 2 2 − 2 m ∥ x − z ∥ 2 2 ( ★ )
證明 :
f ( x − t G t ( x ) ) ≤ g ( x ) − t ∇ g ( x ) T G t ( x ) + t 2 ∥ G t ( x ) ∥ 2 2 + h ( x − t G t ( x ) ) ≤ g ( z ) − ∇ g ( x ) T ( z − x ) − m 2 ∥ z − x ∥ 2 2 − t ∇ g ( x ) T G t ( x ) + t 2 ∥ G t ( x ) ∥ 2 2 + h ( x − t G t ( x ) ) ≤ g ( z ) − ∇ g ( x ) T ( z − x ) − m 2 ∥ z − x ∥ 2 2 − t ∇ g ( x ) T G t ( x ) + t 2 ∥ G t ( x ) ∥ 2 2 + h ( z ) − ( G t ( x ) − ∇ g ( x ) ) T ( z − x + t G t ( x ) ) = g ( z ) + h ( z ) + G t ( x ) T ( x − z ) − t 2 ∥ G t ( x ) ∥ 2 2 − m 2 ∥ x − z ∥ 2 2
\begin{aligned}
f\left(x-t G_{t}(x)\right) & \\
\leq & g(x)-t \nabla g(x)^{T} G_{t}(x)+\frac{t}{2}\left\|G_{t}(x)\right\|_{2}^{2}+h\left(x-t G_{t}(x)\right) \\
\leq & g(z)-\nabla g(x)^{T}(z-x)-\frac{m}{2}\|z-x\|_{2}^{2}-t \nabla g(x)^{T} G_{t}(x)+\frac{t}{2}\left\|G_{t}(x)\right\|_{2}^{2} \\
&+h\left(x-t G_{t}(x)\right) \\
\leq & g(z)-\nabla g(x)^{T}(z-x)-\frac{m}{2}\|z-x\|_{2}^{2}-t \nabla g(x)^{T} G_{t}(x)+\frac{t}{2}\left\|G_{t}(x)\right\|_{2}^{2} \\
&+h(z)-\left(G_{t}(x)-\nabla g(x)\right)^{T}\left(z-x+t G_{t}(x)\right) \\
=& g(z)+h(z)+G_{t}(x)^{T}(x-z)-\frac{t}{2}\left\|G_{t}(x)\right\|_{2}^{2}-\frac{m}{2}\|x-z\|_{2}^{2}
\end{aligned}
f ( x − t G t ( x ) ) ≤ ≤ ≤ = g ( x ) − t ∇ g ( x ) T G t ( x ) + 2 t ∥ G t ( x ) ∥ 2 2 + h ( x − t G t ( x ) ) g ( z ) − ∇ g ( x ) T ( z − x ) − 2 m ∥ z − x ∥ 2 2 − t ∇ g ( x ) T G t ( x ) + 2 t ∥ G t ( x ) ∥ 2 2 + h ( x − t G t ( x ) ) g ( z ) − ∇ g ( x ) T ( z − x ) − 2 m ∥ z − x ∥ 2 2 − t ∇ g ( x ) T G t ( x ) + 2 t ∥ G t ( x ) ∥ 2 2 + h ( z ) − ( G t ( x ) − ∇ g ( x ) ) T ( z − x + t G t ( x ) ) g ( z ) + h ( z ) + G t ( x ) T ( x − z ) − 2 t ∥ G t ( x ) ∥ 2 2 − 2 m ∥ x − z ∥ 2 2
其中第一個不等號用到了 g ( x ) g(x) g ( x ) 凸函數以及 Lipschitz 連續的性質,第二個不等號用到了 g ( x ) g(x) g ( x ) 凸函數的性質,第三個不等號用到了 h ( x ) h(x) h ( x ) 凸函數的性質。
有了上面這個式子就可以分析收斂性了。
如果我們取 z = x z=x z = x ,那麼就有下面的式子,說明序列 { f ( x k } \{f(x_k\} { f ( x k } 總是在減小的,如果 f ( x ) f(x) f ( x ) 存在下界,那麼 f ( x k ) f(x_k) f ( x k ) 將趨向於這個下界。
f ( x + ) ≤ f ( x ) − t 2 ∥ G t ( x ) ∥ 2
f(x^+)\le f(x)-\frac{t}{2}\Vert G_t(x)\Vert^2
f ( x + ) ≤ f ( x ) − 2 t ∥ G t ( x ) ∥ 2
如果我們取 z = x ⋆ z=x^\star z = x ⋆ ,那麼就有
f ( x + ) − f ⋆ ≤ G t ( x ) T ( x − x ⋆ ) − t 2 ∥ G t ( x ) ∥ 2 2 − m 2 ∥ x − x ⋆ ∥ 2 2 = 1 2 t ( ∥ x − x ⋆ ∥ 2 2 − ∥ x − x ⋆ − t G t ( x ) ∥ 2 2 ) − m 2 ∥ x − x ⋆ ∥ 2 2 = 1 2 t ( ( 1 − m t ) ∥ x − x ⋆ ∥ 2 2 − ∥ x + − x ⋆ ∥ 2 2 ) ≤ 1 2 t ( ∥ x − x ⋆ ∥ 2 2 − ∥ x + − x ⋆ ∥ 2 2 )
\begin{aligned}
f\left(x^{+}\right)-f^{\star} & \leq G_{t}(x)^{T}\left(x-x^{\star}\right)-\frac{t}{2}\left\|G_{t}(x)\right\|_{2}^{2}-\frac{m}{2}\left\|x-x^{\star}\right\|_{2}^{2} \\
&=\frac{1}{2 t}\left(\left\|x-x^{\star}\right\|_{2}^{2}-\left\|x-x^{\star}-t G_{t}(x)\right\|_{2}^{2}\right)-\frac{m}{2}\left\|x-x^{\star}\right\|_{2}^{2} \\
&=\frac{1}{2 t}\left((1-m t)\left\|x-x^{\star}\right\|_{2}^{2}-\left\|x^{+}-x^{\star}\right\|_{2}^{2}\right) \\
& \leq \frac{1}{2 t}\left(\left\|x-x^{\star}\right\|_{2}^{2}-\left\|x^{+}-x^{\star}\right\|_{2}^{2}\right)
\end{aligned}
f ( x + ) − f ⋆ ≤ G t ( x ) T ( x − x ⋆ ) − 2 t ∥ G t ( x ) ∥ 2 2 − 2 m ∥ x − x ⋆ ∥ 2 2 = 2 t 1 ( ∥ x − x ⋆ ∥ 2 2 − ∥ x − x ⋆ − t G t ( x ) ∥ 2 2 ) − 2 m ∥ x − x ⋆ ∥ 2 2 = 2 t 1 ( ( 1 − m t ) ∥ x − x ⋆ ∥ 2 2 − ∥ ∥ x + − x ⋆ ∥ ∥ 2 2 ) ≤ 2 t 1 ( ∥ x − x ⋆ ∥ 2 2 − ∥ ∥ x + − x ⋆ ∥ ∥ 2 2 )
從這個式子就可以看出來很多有用的性質了:
∥ x + − x ⋆ ∥ 2 2 ≤ ( 1 − m t ) ∥ x − x ⋆ ∥ 2 2 \left\|x^{+}-x^{\star}\right\|_{2}^{2}\le (1-m t)\left\|x-x^{\star}\right\|_{2}^{2} ∥ x + − x ⋆ ∥ 2 2 ≤ ( 1 − m t ) ∥ x − x ⋆ ∥ 2 2 ,如果滿足強凸性質的話,也即 m > 0 m>0 m > 0 ,就有 ∥ x + − x ⋆ ∥ 2 2 ≤ c k ∥ x − x ⋆ ∥ 2 2 , c = 1 − m / L \left\|x^{+}-x^{\star}\right\|_{2}^{2}\le c^k\left\|x-x^{\star}\right\|_{2}^{2},c=1-m/L ∥ x + − x ⋆ ∥ 2 2 ≤ c k ∥ x − x ⋆ ∥ 2 2 , c = 1 − m / L ;
∑ i k ( f ( x i ) − f ⋆ ) ≤ 1 2 t ∥ x + − x ⋆ ∥ 2 2 \sum_i^k (f(x_i)-f^\star) \le \frac{1}{2t}\left\|x^{+}-x^{\star}\right\|_{2}^{2} ∑ i k ( f ( x i ) − f ⋆ ) ≤ 2 t 1 ∥ x + − x ⋆ ∥ 2 2 ,由於 f ( x i ) f(x_i) f ( x i ) 不增,因此 f ( x k ) − f ⋆ ≤ 1 2 k t ∥ x + − x ⋆ ∥ 2 2 f(x_k)-f^\star \le \frac{1}{2kt}\left\|x^{+}-x^{\star}\right\|_{2}^{2} f ( x k ) − f ⋆ ≤ 2 k t 1 ∥ x + − x ⋆ ∥ 2 2 ,因此收斂速度也是 O ( 1 / k ) O(1/k) O ( 1 / k ) 。
注意到前面的分析是針對固定步長 t ∈ ( 0 , 1 / L ] t\in(0,1/L] t ∈ ( 0 , 1 / L ] 的,如果我們想走的更遠一點,下降的快一點呢?就可以用前幾節提到的線搜索方法。也就是說每次選擇步長 t k t_k t k 的時候需要迭代 t : = β t t:=\beta t t : = β t 來進行搜索,使得滿足下面的式子
g ( x − t G t ( x ) ) ≤ g ( x ) − t ∇ g ( x ) T G t ( x ) + t 2 ∥ G t ( x ) ∥ 2 2
g\left(x-t G_{t}(x)\right) \leq g(x)-t \nabla g(x)^{T} G_{t}(x)+\frac{t}{2}\left\|G_{t}(x)\right\|_{2}^{2}
g ( x − t G t ( x ) ) ≤ g ( x ) − t ∇ g ( x ) T G t ( x ) + 2 t ∥ G t ( x ) ∥ 2 2
這個式子就是 Lipschitz 連續導出的二次上界,注意應用線搜索的時候,每次迭代我們都要額外計算一次 g g g 和 prox t h \text{prox}_{th} prox t h ,這個計算可能並不簡單,因此不一定會使算法收斂更快,需要慎重考慮。另外爲了保證能在有限步停止搜索 t k t_k t k ,還需要加入最小步長的約束 t ≥ t min = min { t ^ , β / L } t\ge t_{\min}=\min \{\hat{t},\beta/L\} t ≥ t min = min { t ^ , β / L } 。線搜索直觀理解可以如下圖所示
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-ZkJVmrlK-1587117296421)(E:\Study\凸優化\img\19-line-search.PNG)]
我們再來分析一下收斂性,跟前面固定步長很像,只需要將原來的式子中 t t t 替換爲 t i t_i t i ,就可以得到
t i ( f ( x i + 1 ) − f ⋆ ) ≤ 1 2 ( ∥ x i − x ⋆ ∥ 2 2 − ∥ x i + 1 − x ⋆ ∥ 2 2 )
t_{i}\left(f\left(x_{i+1}\right)-f^{\star}\right) \leq \frac{1}{2}\left(\left\|x_{i}-x^{\star}\right\|_{2}^{2}-\left\|x_{i+1}-x^{\star}\right\|_{2}^{2}\right)
t i ( f ( x i + 1 ) − f ⋆ ) ≤ 2 1 ( ∥ x i − x ⋆ ∥ 2 2 − ∥ x i + 1 − x ⋆ ∥ 2 2 )
於是有
∥ x + − x ⋆ ∥ 2 2 ≤ ( 1 − m t i ) ∥ x − x ⋆ ∥ 2 2 ≤ ( 1 − m t min ) ∥ x − x ⋆ ∥ 2 2 \left\|x^{+}-x^{\star}\right\|_{2}^{2}\le (1-m t_i)\left\|x-x^{\star}\right\|_{2}^{2}\le (1-m t_{\min})\left\|x-x^{\star}\right\|_{2}^{2} ∥ x + − x ⋆ ∥ 2 2 ≤ ( 1 − m t i ) ∥ x − x ⋆ ∥ 2 2 ≤ ( 1 − m t min ) ∥ x − x ⋆ ∥ 2 2 ,如果滿足強凸性質的話,也即 m > 0 m>0 m > 0 ,就有 ∥ x + − x ⋆ ∥ 2 2 ≤ c k ∥ x − x ⋆ ∥ 2 2 , c = 1 − m t min = max { 1 − β m / L , 1 − m t ^ } \left\|x^{+}-x^{\star}\right\|_{2}^{2}\le c^k\left\|x-x^{\star}\right\|_{2}^{2},c=1-mt_{\min}=\max \{1-\beta m/L,1-m\hat{t}\} ∥ x + − x ⋆ ∥ 2 2 ≤ c k ∥ x − x ⋆ ∥ 2 2 , c = 1 − m t min = max { 1 − β m / L , 1 − m t ^ } ;
∑ i k t i ( f ( x i ) − f ⋆ ) ≤ 1 2 ∥ x + − x ⋆ ∥ 2 2 \sum_i^k t_i(f(x_i)-f^\star) \le \frac{1}{2}\left\|x^{+}-x^{\star}\right\|_{2}^{2} ∑ i k t i ( f ( x i ) − f ⋆ ) ≤ 2 1 ∥ x + − x ⋆ ∥ 2 2 ,由於 f ( x i ) f(x_i) f ( x i ) 不增,因此 f ( x k ) − f ⋆ ≤ 1 2 k t min ∥ x + − x ⋆ ∥ 2 2 f(x_k)-f^\star \le \frac{1}{2kt_{\min}}\left\|x^{+}-x^{\star}\right\|_{2}^{2} f ( x k ) − f ⋆ ≤ 2 k t min 1 ∥ x + − x ⋆ ∥ 2 2 ,因此收斂速度也是 O ( 1 / k ) O(1/k) O ( 1 / k ) 。
最後給我的博客打個廣告,歡迎光臨
https://glooow1024.github.io/
https://glooow.gitee.io/
前面的一些博客鏈接如下
凸優化專欄
凸優化學習筆記 1:Convex Sets
凸優化學習筆記 2:超平面分離定理
凸優化學習筆記 3:廣義不等式
凸優化學習筆記 4:Convex Function
凸優化學習筆記 5:保凸變換
凸優化學習筆記 6:共軛函數
凸優化學習筆記 7:擬凸函數 Quasiconvex Function
凸優化學習筆記 8:對數凸函數
凸優化學習筆記 9:廣義凸函數
凸優化學習筆記 10:凸優化問題
凸優化學習筆記 11:對偶原理
凸優化學習筆記 12:KKT條件
凸優化學習筆記 13:KKT條件 & 互補性條件 & 強對偶性
凸優化學習筆記 14:SDP Representablity
最優化方法 15:梯度方法
最優化方法 16:次梯度
最優化方法 17:次梯度下降法
最優化方法 18:近似點算子 Proximal Mapping
最優化方法 19:近似梯度下降
最優化方法 20:對偶近似點梯度下降法
最優化方法 21:加速近似梯度下降方法
最優化方法 22:近似點算法 PPA
最優化方法 23:算子分裂法 & ADMM
最優化方法 24:ADMM