矩陣範數的次微分the subdifferential of some Matrix Norms

  •  方向導數

     函數 f 在 \bar{x} 處,方向d 的方向導數:

                                            f(\bar{x},d)=\lim_{t\rightarrow 0^{+}}\frac{f(\bar{x}+td)-f(\bar{x})}{t}

     當方向導數f(\bar{x},d) 關於d 線性的,即f(\bar{x},d)=<a,d>,那麼我們稱 f 在\bar{x} 這一點 Gâteaux differentive,並且

導數\triangledown f(\bar{x})=a.。

  • 次梯度與次微分

       令 f 是一個凸的且合適的函數,即 domf ={ x \inE | f(x)<\infty } (域空間非空),在 \hat{x}, 如果\Phi 滿足,對任意x,

                                                            \Phi\cdot (x-\hat{x})\leqslant f(x)-f(\hat{x})

就說 \Phi 是f 在 \hat{x} 這一點的次梯度 。

       例1,對於 f(x)=|x|, 在 0 這一點:

                                 \Phi (x-0)\leq |x|

容易求得:\Phi \subseteq [-1,1], 因此這個集合中的任一點都是x=0這一點的次梯度,這個集合就叫次微分。

        例2,對於 f(x)=x^{^{2}} ,在 0 這一點, 

                          \Phi x\leqslant x^{2}\Phi =0

可以看出對於光滑的函數,次梯度就等於通常意義上的梯度。

  • 次梯度應用

       次梯度有如下重要性質:

對於任何凸且合適的函數f ,點 \hat{x} 是f 的極值點,當且僅當滿足條件 0\subseteq \partial f(\hat{x}), 即 0 要是函數在這一點的次梯度。

       例1: proximal mapping

                   min: \frac{1}{2}(a-y^{2})+\lambda |y|

                                      0\subseteq -(a-y)+\lambda \partial|y|,     a-y\subseteq \lambda \partial |y|

                                     1. 當y=0,a\subseteq \lambda [-1,1];  while |a|\leq \lambda ;

                                     2. 當y>0,a-y=\lambda ,y=a-\lambda ; while a>\lambda;

                                     3. 當y<0,a-y=-\lambda ,y=a+\lambda;while a<-\lambda;

  • 矩陣範數次微分

      令 ||\bullet || 是矩陣範數,如果 A 是m\times n 維實矩陣,那麼 ||A|| 的次微分被如下定義:

                           \partial ||A||={G\in R^{m\times n}:||B||\geq ||A||+trace\left [ (B-A)^{T}G \right ],all B\in R^{m\times n}}

可以看到和函數次微分的定義本質上是一樣的。

       在這裏主要考慮正交不變範數,即 ||UAV||=||A||, U,V是正交的。對於這一類範數,可以通過它的奇異值來定義。對A

做奇異值分解,A=U\Sigma V^{T},奇異值按降序排列,\sigma _{1}\geq ...\geq \sigma _{n},所有這一類範數可以定義成奇異值的函數,||A||=\Phi (\sigma )

\sigma =(\sigma _{1},...,\sigma _{n})^{T}。例如當\Phi 是 l_{_p} norm,可以得到 ||A||=||\sigma ||_{p} 。當p=1,定義了核範數;當p=2,定義了Frobenius 範數;當

p=\infty,最大奇異值,定義了譜範數,等等。對於這一類通過奇異值定義的範數,有如下定理:

Theorem 1. 方向導數

       令 A,R 均爲m\times n 的矩陣,對A 做奇異值分解,則A 的方向導數爲:

                                 \lim_{\gamma \rightarrow 0^{+}}\frac{||A+\gamma R||-||A||}{\gamma }= \max_{d\in \partial \Phi (\sigma )}\sum_{i=1}^{n}d_{i}u_{i}^{T}Rv_{i}

u_{i},v_{i} 均是相對於\sigma _{i} 的奇異向量。

Theorem 2. 次微分

      令D 是m\times n 的對角矩陣,則矩陣 A 的範數的次微分爲:

                       \partial ||A||=conv({UDV^{T},A=U\Sigma V^{T},d\in \partial \Phi (\sigma )})

      D是對角矩陣,對角元素是 \Phi (\sigma ) 的次梯度。conv是集合的convex hull, 即集合中元素的凸組合,對於一個矩陣來說,做奇異值分解時奇異值是唯一的,但奇異向量矩陣U和V不唯一。上式中,次微分中的任一元素  ,即次梯度,可以表示爲:

                                            G=\sum \lambda _{i}U_{i}D_{i}V_{i}^{T}    ,\lambda _{i}\geq 0,\sum \lambda _{i}=1

例1. 核範數  \Phi (\sigma )=||\sigma ||_{1}

       對A做奇異值分解,A=U\Sigma V^{T},當 A 有s個0奇異值時,\partial ||\sigma ||_{1}=\left \{ x\in R^{n}:|x_{i}\leq 1,x_{i}=1,i=1,...,n-s| \right \}。那麼對角矩陣的前 n-s個對角元素爲1,後s個元素的絕對值小於等於1.將U劃分成  U^{1},U^{2},V劃分成 V^{1},V^{2},  U^{1},V^{1}有n-s個列。

      讓G\in \partial ||A||, 然後

                                 G=\sum_{i}\lambda _{i}U_{i}D_{i}V_{i}^{T}

其中\sum \lambda _{i}=1,\lambda _{i}\geq 0A=U_{i}\Sigma V_{i}^{T},D_{i} 是對角矩陣,對角元素是 ||\sigma ||_{1} 的次梯度。

由於不同奇異向量相差一個正交矩陣,因此,

G=\sum_{i}\lambda _{i} U^{(1)}X_{i}X_{i}^{T}V^{(1)T}+\lambda _{i}U^{(2)}Y_{i}W^{i}Z_{i}^{T}V^{(2)T} =U^{(1)}V^{(1)}^{T}+\sum_{i} \lambda _{i}U^{(2)}Y_{i}W^{i}Z_{i}^{T}V^{(2)}^{T} =U^{(1)}V^{(1)}^{T}+U^{(2)}TV^{(2)}^{T}

這裏 X_{i},Y_{i},Z_{i} 分別是n-s,m-n+s,s維的正交矩陣。W_{i} 是(m-n+s)\times s維的對角矩陣,\sigma _{1}表示矩陣最大奇異值。

T=\sum_{i}\lambda _{i}Y_{i}W_{i}Z_{i}^{T},\sigma _{1}(T)=\sigma _{1}(\lambda _{i}Y_{i}W_{i}Z_{i}^{T})\leq \sum_{i}\lambda _{i}\sigma _{1}(W_{i})\leq 1

最後,可以得到:

             \partial ||A||=\left \{ U^{(1)}V^{(1)} ^{T}+U^{(2)}TV^{(2)} all T\in R^{(m-n+s)\times s},\sigma _{1}(T)\leq 1\right \}

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章