前言

之前的博客：特徵值和特徵向量，討論了矩陣的特徵分解相關的概念。公式如下所示：

\begin{matrix} (1) & A = W Σ W^{T} \end{matrix}

但是特徵分解有一個限制條件，即 $A$ 必須是方陣，如果不是方陣則上式就不能使用了。爲了在 $A$ 矩陣不是方陣時，即行列數不等時，也能分解矩陣的特徵，就要用到SVD了。

定義

SVD的作用也是對矩陣進行分解，但是與特徵分解不同，SVD 不要求待分解的矩陣必須是方陣。

假設給定了某一個矩陣 $A$ ，其維度是 $m \times n$ 。那麼，定義SVD爲如下式：

\begin{matrix} (2) & A = U Σ V^{T} \end{matrix}

其中， $U$ 是一個 $m \times m$ 的矩陣， $Σ$ 是一個 $m \times n$ 的矩陣， $V$ 是一個 $n \times n$ 的矩陣。 $Σ$ 中，除了對角線上的元素之外，其餘元素的值都爲0，主對角線上的每個元素都被稱爲奇異值。另外， $U$ 和 $V$ 都是經過標準化之後的，即滿足： $U^{T} U = I$ 、 $V^{T} V = I$ 。

求解SVD過程

求解SVD的過程可以分解爲，分別求解 $U, Σ, V$ 的過程。

將 $A$ 的轉置與 $A$ 作矩陣乘法，那麼會得到 $n \times n$ 的方陣 $A^{T} A$ 。這樣就可以對 $A^{T} A$ 作特徵分解了，求得的特徵值與特徵向量滿足下式：

\begin{matrix} (3) & (A^{T} A) v_{j} = λ_{j} v_{j} \end{matrix}

得到了 $A^{T} A$ 的 $n$ 個特徵值 $λ_{j}$ 以及對應的 $n$ 個特徵向量 $v_{j}$ 。將這 $n$ 個特徵向量 $v_{j}$ 組合成一個 $n \times n$ 的矩陣 $V$ ，就得到了SVD公式裏面的矩陣 $V$ 了。通常，稱 $V$ 中的特徵向量 $v_{j}$ 爲右奇異向量。

將 $A$ 與 $A$ 的轉置作矩陣乘法，則會得到 $m \times m$ 的方陣 $A A^{T}$ 。接着可以對 $A A^{T}$ 作特徵分解，求出特徵值與特徵向量滿足下式：

\begin{matrix} (4) & (A A^{T}) u_{i} = λ u_{i} \end{matrix}

得到了 $A A^{T}$ 的 $n$ 個特徵值 $λ_{i}$ 以及對應的 $n$ 個特徵向量 $u_{i}$ 。將這 $n$ 個特徵向量 $u_{i}$ 組合成一個 $m \times m$ 的矩陣 $U$ ，就得到了SVD公式裏面的矩陣 $U$ 了。通常，稱 $U$ 中的特徵向量 $u_{i}$ 爲左奇異向量。

已經求到了 $U$ 和 $V$ 了，還剩下 $Σ$ 。注意到， $Σ$ 除了對角線上是奇異值之外，其餘位置都是0，那麼只需要求出每個奇異值 $σ_{i}$ 就k了。

注意到：

\begin{matrix} (5) & A = U Σ V^{T} \Rightarrow A V = U Σ V^{T} V \Rightarrow A V = U Σ \Rightarrow A v_{k} = σ_{k} u_{k} \Rightarrow σ_{k} = \frac{A v_{k}}{u_{k}} \end{matrix}

套用上式，即可求出每個奇異值 $σ_{k}$ ，得到奇異值矩陣 $Σ$ 。

再簡要證明一下，方陣A A^T的特徵向量組成的矩陣就是SVD中的 $U$ 矩陣，而方陣A A^T的特徵向量組成的矩陣就是SVD中的 $V$ 矩陣。

\begin{matrix} (6) & {\begin{cases} A = U Σ V^{T} \\ A^{T} = V Σ^{T} U^{T} \end{cases} \Rightarrow {\begin{cases} A^{T} A = V Σ^{T} U^{T} U Σ V^{T} = V Σ^{T} Σ V^{T} \\ A A^{T} = U Σ V^{T} V Σ^{T} U^{T} = U Σ Σ^{T} U^{T} \end{cases} \end{matrix}

推導時用到了 $U^{T} U = I$ 、 $V^{T} V = I$ 。注意到 $Σ^{T} Σ$ 的維數爲 $n \times n$ ， $Σ Σ^{T}$ 的維數爲 $m \times m$ ，由於奇異值矩陣 $Σ$ 只有對角線上有元素，其餘位置都是0，所以很容易證明 $Σ^{T} Σ$ 和 $Σ Σ^{T}$ 也是奇異值矩陣。不難看出 $A A^{T}$ 和 $A^{T} A$ 的特徵向量組成的矩陣分別是SVD中 $U$ 和 $V$ 矩陣了吧！

不難看出 $Σ^{T} Σ$ 和 $Σ Σ^{T}$ 的特徵值矩陣等於奇異值矩陣 $Σ$ 的平方。即有下式關係：

\begin{matrix} (7) & σ_{k} = \sqrt{λ_{k}} \end{matrix}

我們可以通過求解 $σ_{i j} = \frac{A v_{j}}{u_{i}}$ 來計算奇異值，也可以通過求出 $A A^{T}$ 或的 $A^{T} A$ 特徵值開平方根得到奇異值。

計算舉例

對矩陣 $A$ 作奇異值分解：

A = [\begin{matrix} 1 & 0 \\ 1 & 1 \\ 0 & 1 \end{matrix}]

求出 $A^{T}$ ：

A^{T} = [\begin{matrix} 1 & 1 & 0 \\ 0 & 1 & 1 \end{matrix}]

接着可以求出 $A A^{T}$ 和 $A^{T} A$ ：

{\begin{cases} A A^{T} = [\begin{matrix} 1 & 1 & 0 \\ 1 & 2 & 1 \\ 0 & 1 & 1 \end{matrix}] \\ A^{T} A = [\begin{matrix} 2 & 1 \\ 1 & 2 \end{matrix}] \end{cases}

先求出 $A A^{T}$ 的特徵值和特徵向量：（注，將 $λ$ 按照從大到小的順序標號）

手算是套用公式 $D e t (A A^{T} - λ I) = 0$ 求出特徵值與特徵矩陣，這裏直接用matlab的eig函數求出結果了。

$λ_{1} = 3$ ； $u_{1} = [\begin{matrix} 0.4082 \\ 0.8165 \\ 0.4082 \end{matrix}]$ ； $λ_{2} = 1$ ； $u_{2} = [\begin{matrix} - 0.7071 \\ 0 \\ 0.7071 \end{matrix}]$ ； $λ_{3} = 0$ ； $u_{3} = [\begin{matrix} 0.5774 \\ - 0.5774 \\ 0.5774 \end{matrix}]$ ；

再求出 $A^{T} A$ 的特徵值和特徵向量：（求解方法同上，省略）

$λ_{1} = 3$ ； $v_{1} = [\begin{matrix} 0.7071 \\ 0.7071 \end{matrix}]$ ； $λ_{2} = 1$ ； $v_{2} = [\begin{matrix} - 0.7071 \\ 0.7071 \end{matrix}]$ ；

套用公式 $σ_{k} = \frac{A v_{k}}{u_{k}}, k = 1, 2$ 求解奇異值：

σ_{1} [\begin{matrix} 0.4082 \\ 0.8165 \\ 0.4082 \end{matrix}] = [\begin{matrix} 1 & 0 \\ 1 & 1 \\ 0 & 1 \end{matrix}] [\begin{matrix} 0.7071 \\ 0.7071 \end{matrix}] \Rightarrow σ_{1} = 1.732

σ_{2} = [\begin{matrix} - 0.7071 \\ 0 \\ 0.7071 \end{matrix}] = [\begin{matrix} 1 & 0 \\ 1 & 1 \\ 0 & 1 \end{matrix}] [\begin{matrix} - 0.7071 \\ 0.7071 \end{matrix}] \Rightarrow σ_{2} = 1

當然也可以直接使用 $σ_{k} = \sqrt{λ_{k}}$ 求出奇異值， $A A^{T}$ 和 $A^{T} A$ 的特徵值都爲 $3$ 和 $1$ （ $0$ 沒有意義，所以不討論），所以奇異值分別爲 $\sqrt{3}$ 和 $1$ ，這樣計算更簡單。

最終得到的奇異值分解爲：

A = U Σ V^{T} = [\begin{matrix} 0.4082 & - 0.7071 & 0.5774 \\ 0.8165 & 0 & - 0.5774 \\ 0.4082 & 0.7071 & 0.5774 \end{matrix}] [\begin{matrix} 1.732 & 0 \\ 0 & 1 \\ 0 & 0 \end{matrix}] [\begin{matrix} 0.7071 & - 0.7071 \\ 0.7071 & 0.7071 \end{matrix}]

SVD的性質

對於奇異值，它與特徵分解中的特徵值類似。在奇異值矩陣 $Σ$ 中，奇異值是按照從大到小排列，而奇異值減小的也十分快，通常前面的10%的奇異值就佔掉了所有奇異值之和的90%以上。因此，我們可以使用最大的 $k$ 個奇異值和對應的左右奇異向量來近似表示矩陣，如下式所示：

\begin{matrix} (8) & A_{(m \times n)} = U_{(m \times m)} Σ_{(m \times n)} V_{(n \times n)}^{T} ≃ U_{(m \times k)} Σ_{(k \times k)} V_{(k \times n)}^{T} \end{matrix}

上式中的下標表示那個矩陣的維數。

如果 $k$ 是一個較小的數，而 $n$ 是一個較大的數，SVD的作用就體現出來了，因爲一個較大的矩陣 $A$ 可以用三個較小的矩陣 $U_{(m \times k)}, Σ_{(k \times k)}, V_{(k \times n)}^{T}$ 來表示。

由於這個特殊的性質，SVD可以用於PCA降維等，來壓縮數據和去噪。

參考資料：

1、https://www.cnblogs.com/pinard/p/6251584.html

SVD奇異值分解

前言

定義

求解SVD過程

計算舉例

SVD的性質

論文筆記：MobileNet v1

論文筆記：Spherical CNN

論文筆記：殘差神經網絡(ResNet v1)

論文筆記：孿生神經網絡(Siamese Network)

論文筆記：PPFNet

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結