矩陣範數的次微分the subdifferential of some Matrix Norms

方向導數

函數在 $\bar{x}$ 處，方向的方向導數：

$f(\bar{x},d)=\lim_{t\rightarrow 0^{+}}\frac{f(\bar{x}+td)-f(\bar{x})}{t}$

當方向導數 $f(\bar{x},d)$ 關於線性的，即 $f(\bar{x},d)=<a,d>$ ,那麼我們稱在 $\bar{x}$ 這一點 Gâteaux differentive，並且

導數 $\triangledown f(\bar{x})=a$ .。

次梯度與次微分

令是一個凸的且合適的函數，即 $domf ={ x \inE | f(x)<\infty }$ （域空間非空），在 $\hat{x}$ , 如果 $\Phi$ 滿足，對任意,

$\Phi\cdot (x-\hat{x})\leqslant f(x)-f(\hat{x})$

就說 $\Phi$ 是在 $\hat{x}$ 這一點的次梯度。

例1，對於 , 在 0 這一點:

$\Phi (x-0)\leq |x|$ ,

容易求得： $\Phi \subseteq [-1,1]$ , 因此這個集合中的任一點都是這一點的次梯度，這個集合就叫次微分。

例2，對於 = $x^{^{2}}$ ，在 0 這一點,

$\Phi x\leqslant x^{2}$ , $\Phi =0$ ，

可以看出對於光滑的函數，次梯度就等於通常意義上的梯度。

次梯度應用

次梯度有如下重要性質：

對於任何凸且合適的函數 ,點 $\hat{x}$ 是的極值點，當且僅當滿足條件 $0\subseteq \partial f(\hat{x})$ , 即 0 要是函數在這一點的次梯度。

例1： proximal mapping

$min: \frac{1}{2}(a-y^{2})+\lambda |y|$

$0\subseteq -(a-y)+\lambda \partial|y|$ , $a-y\subseteq \lambda \partial |y|$

1. 當 $y=0,a\subseteq \lambda [-1,1]$ ; while $|a|\leq \lambda ;$

2. 當 $y>0,a-y=\lambda ,y=a-\lambda ;$ while $a>\lambda$ ;

3. 當 $y<0,a-y=-\lambda ,y=a+\lambda$ ;while $a<-\lambda$ ;

矩陣範數次微分

令 $||\bullet ||$ 是矩陣範數，如果是 $m\times n$ 維實矩陣，那麼的次微分被如下定義：

$\partial ||A||={G\in R^{m\times n}:||B||\geq ||A||+trace\left [ (B-A)^{T}G \right ],all B\in R^{m\times n}}$

可以看到和函數次微分的定義本質上是一樣的。

在這裏主要考慮正交不變範數，即，是正交的。對於這一類範數，可以通過它的奇異值來定義。對A

做奇異值分解， $A=U\Sigma V^{T}$ ,奇異值按降序排列， $\sigma _{1}\geq ...\geq \sigma _{n}$ ,所有這一類範數可以定義成奇異值的函數， $||A||=\Phi (\sigma )$ ，

$\sigma =(\sigma _{1},...,\sigma _{n})^{T}$ 。例如當 $\Phi$ 是 $l_{_p}$ norm，可以得到 $||A||=||\sigma ||_{p}$ 。當p=1,定義了核範數；當p=2,定義了Frobenius 範數；當

p= $\infty$ ,最大奇異值，定義了譜範數，等等。對於這一類通過奇異值定義的範數，有如下定理：

Theorem 1. 方向導數

令 A,R 均爲 $m\times n$ 的矩陣，對A 做奇異值分解，則A 的方向導數爲：

$\lim_{\gamma \rightarrow 0^{+}}\frac{||A+\gamma R||-||A||}{\gamma }= \max_{d\in \partial \Phi (\sigma )}\sum_{i=1}^{n}d_{i}u_{i}^{T}Rv_{i}$

$u_{i},v_{i}$ 均是相對於 $\sigma _{i}$ 的奇異向量。

Theorem 2. 次微分

令D 是 $m\times n$ 的對角矩陣，則矩陣 A 的範數的次微分爲：

$\partial ||A||=conv({UDV^{T},A=U\Sigma V^{T},d\in \partial \Phi (\sigma )})$

D是對角矩陣，對角元素是 $\Phi (\sigma )$ 的次梯度。conv是集合的convex hull, 即集合中元素的凸組合，對於一個矩陣來說，做奇異值分解時奇異值是唯一的，但奇異向量矩陣U和V不唯一。上式中，次微分中的任一元素 ,即次梯度，可以表示爲：

$G=\sum \lambda _{i}U_{i}D_{i}V_{i}^{T}$ , $\lambda _{i}\geq 0,\sum \lambda _{i}=1$

例1. 核範數 $\Phi (\sigma )=||\sigma ||_{1}$ 。

對A做奇異值分解， $A=U\Sigma V^{T}$ ,當 A 有s個0奇異值時， $\partial ||\sigma ||_{1}=\left \{ x\in R^{n}:|x_{i}\leq 1,x_{i}=1,i=1,...,n-s| \right \}$ 。那麼對角矩陣的前 n-s個對角元素爲1，後s個元素的絕對值小於等於1.將劃分成 $U^{1},U^{2}$ ,劃分成 $V^{1},V^{2}$ , $U^{1},V^{1}$ 有n-s個列。

讓 $G\in \partial ||A||$ , 然後

$G=\sum_{i}\lambda _{i}U_{i}D_{i}V_{i}^{T}$

其中 $\sum \lambda _{i}=1$ , $\lambda _{i}\geq 0$ , $A=U_{i}\Sigma V_{i}^{T}$ , $D_{i}$ 是對角矩陣，對角元素是 $||\sigma ||_{1}$ 的次梯度。

由於不同奇異向量相差一個正交矩陣，因此，

$G=\sum_{i}\lambda _{i} U^{(1)}X_{i}X_{i}^{T}V^{(1)T}+\lambda _{i}U^{(2)}Y_{i}W^{i}Z_{i}^{T}V^{(2)T} =U^{(1)}V^{(1)}^{T}+\sum_{i} \lambda _{i}U^{(2)}Y_{i}W^{i}Z_{i}^{T}V^{(2)}^{T} =U^{(1)}V^{(1)}^{T}+U^{(2)}TV^{(2)}^{T}$

這裏 $X_{i},Y_{i},Z_{i}$ 分別是n-s,m-n+s,s維的正交矩陣。 $W_{i}$ 是 $(m-n+s)\times s$ 維的對角矩陣， $\sigma _{1}$ 表示矩陣最大奇異值。

$T=\sum_{i}\lambda _{i}Y_{i}W_{i}Z_{i}^{T},\sigma _{1}(T)=\sigma _{1}(\lambda _{i}Y_{i}W_{i}Z_{i}^{T})\leq \sum_{i}\lambda _{i}\sigma _{1}(W_{i})\leq 1$

最後，可以得到：

$\partial ||A||=\left \{ U^{(1)}V^{(1)} ^{T}+U^{(2)}TV^{(2)} all T\in R^{(m-n+s)\times s},\sigma _{1}(T)\leq 1\right \}$

矩陣範數的次微分the subdifferential of some Matrix Norms

lightdb hash index的性能和限制

概率pca(probabilistic pca)的理解

矩陣範數的次微分the subdifferential of some Matrix Norms

從主座標分析(PCO)到kernel PCA

conjugate prior共軛先驗

線性判別分析Linear Discriminant Analysis

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結