矩陣論筆記：奇異值分解SVD(Singular Value Decomposition)總結

文章目錄

一、相關概念

四、奇異值分解應用

奇異值分解（Singular Value Decomposition）是線性代數中一種重要的矩陣分解(Matrix Decomposition)，奇異值分解則是特徵分解在任意矩陣上的推廣。在信號處理、統計學等領域有重要應用。這篇文章主要說下奇異值分解，這個方法在機器學習的一些算法裏佔有重要地位。

一、相關概念

1.1、正交矩陣

如果一個矩陣滿足以下幾個條件，則此矩陣就是正交矩陣：

是一個方陣
和自己的轉置矩陣的矩陣乘積 = 單位矩陣 $E$ ，即是： $A A ^ { T } = A ^ { T } A = E$ ，其中 $E$ 爲單位矩陣。

如果A爲一個正交矩陣，則A滿足以下條件：

$A$ 的轉置矩陣也是正交矩陣
$A A ^ { T } = A ^ { T } A = E$ （其中 $E$ 爲單位矩陣）
$A$ 的各行是單位向量且兩兩正交
$A$ 的各列是單位向量且兩兩正交
$|A| = 1$ 或 $-1$
$A ^ { T } = A ^ { - 1 }$ ，A的轉置矩陣等於A的逆矩陣

1.2、正定矩陣

如果對於所有的非零實係數向量 $z$ ，都有 $z ^ { T } A z > 0$ ，則稱矩陣 $A$ 是正定的。正定矩陣的行列式必然大於 0，所有特徵值也必然大於0。相對應的，半正定矩陣的行列式必然大於等於0。對於 $n$ 階實對稱矩陣 $A$ ，下列條件是等價的：

$A$ 是正定矩陣；
$A$ 的一切順序主子式均爲正；
$A$ 的一切主子式均爲正；
$A$ 的特徵值均爲正；
存在實可逆矩陣 $C$ ，使 $A=C'C$ ；
存在秩爲 $n$ 的 $m×n$ 實矩陣 $B$ ，使 $A=B'B$ ；
存在主對角線元素全爲正的實三角矩陣 $R$ ，使 $A=R'R$

根據正定矩陣的定義及性質，判別對稱矩陣A的正定性有兩種方法：

求出 $A$ 的所有特徵值。若 $A$ 的特徵值均爲正數，則 $A$ 是正定的；若 $A$ 的特徵值均爲負數，則 $A$ 爲負定的。
計算 $A$ 的各階順序主子式。若 $A$ 的各階順序主子式均大於零，則A是正定的；若 $A$ 的各階順序主子式中，奇數階主子式爲負，偶數階爲正，則A爲負定的。

例：判斷矩陣是否正定

$Q=\left\{\begin{array}{ccc}{6} & {-3} & {1} \\ {-3} & {2} & {0} \\ {1} & {0} & {4}\end{array}\right\}$
解：對稱矩陣 $Q$ 的三個順序主子式依次爲：
$\begin{array}{c}{|6|=6>0} \\ {\left| \begin{array}{ccc}{6} & {-3} \\ {-3} & {2}\end{array}\right|=3>0} \\ {\left| \begin{array}{ccc}{6} & {-3} & {0} \\ {-3} & {2} & {0} \\ {1} & {0} & {4}\end{array}\right|=10>0}\end{array}$
矩陣 $Q$ 是正定的

二、特徵值分解（EVD）

實對稱矩陣
在理角奇異值分解之前，需要先回顧一下特徵值分解，如果矩陣 $A$ 是一個 $m×m$ 的實對稱矩陣（即 $A = A^T$ ），那麼它可以被分解成如下的形式。
$A=Q \Sigma Q^{T}=Q \left[ \begin{array}{cccc}{\lambda_{1}} & {\cdots} & {\cdots} & {\cdots} \\ {\cdots} & {\lambda_{2}} & {\cdots} & {\cdots} \\ {\ldots} & {\ldots} & {\ddots} & {\ldots} \\ {\cdots} & {\cdots} & {\cdots} & {\lambda_{m}}\end{array}\right] Q^{T} \tag{1}$
其中 $Q$ 爲標準正交陣，即有 $QQ^T = E$ ， $Σ$ 爲對角矩陣，且上面的矩陣的維度均爲 $m×m$ 。 $\lambda_i$ 稱爲特徵值， $q_i$ 是 $Q$ （特徵矩陣）中的列向量，稱爲特徵向量。

注意： $E$ 在這裏表示單位陣，式 $（1-1）$ 的具體求解過程就不多敘述了，可以回憶一下大學時的線性代數。簡單地有如下關係： $Aq_i = \lambda_i q_i, \quad q_i^T q_j = 1(i \ne j)$ 。

一般矩陣

上面的特徵值分解，對矩陣有着較高的要求，它需要被分解的矩陣 $A$ 爲實對稱矩陣，但是現實中，我們所遇到的問題一般不是實對稱矩陣。那麼當我們碰到一般性的矩陣，即有一個 $m×n$ 的矩陣A，它是否能被分解成上面的式 $（1）$ 的形式呢？當然是可以的，這就是我們下面要討論的內容。

三、奇異值分解（SVD）

3.1、奇異值分解定義

有一個 $m×n$ 的實數矩陣 $A$ ，我們想要把它分解成如下的形式
$A=U \Sigma V^{T} \tag{2}$
其中 $U$ 和 $V$ 均爲單位正交陣，即有 $UU^T=E$ 和 $VV^T=E$ , $U$ 稱爲左奇異矩陣， $V$ 稱爲右奇異矩陣， $Σ$ 僅在主對角線上有值，我們稱它爲奇異值。其它元素均爲0。上面矩陣的維度分別爲 $U \in R^{m\times m},\ \Sigma \in R^{m\times n},\ V \in R^{n\times n}$ 。一般地 $Σ$ 有如下形式：
$\Sigma=\left[ \begin{array}{ccccc}{\sigma_{1}} & {0} & {0} & {0} & {0} \\ {0} & {\sigma_{2}} & {0} & {0} & {0} \\ {0} & {0} & {\ddots} & {0} & {0} \\ {0} & {0} & {0} & {\ddots} & {0}\end{array}\right]_{m \times n}$
對於奇異值分解，我們可以利用上面的圖形象表示，圖中方塊的顏色表示值的大小，顏色越淺，值越大。對於奇異值矩陣 $Σ$ ，只有其主對角線有奇異值，其餘均爲0。

3.2、奇異值求解

正常求上面的 $U,V,\Sigma$ 不便於求，我們可以利用如下性質：
$\begin{aligned} A A^{T} &=U \Sigma V^{T} V \Sigma^{T} U^{T}=U \Sigma \Sigma^{T} U^{T} \tag{3,4}\\\ A^{T} A &=V \Sigma^{T} U^{T} U \Sigma V^{T}=V \Sigma^{T} \Sigma V^{T} \end{aligned}$

注意：需要指出的是，這裏 $\Sigma\Sigma^T$ 與 $\Sigma^T\Sigma$ 在矩陣的角度上來講，它們是不相等的，因爲它們的維數不同 $\Sigma\Sigma^T \in R^{m \times m}$ ，而 $\Sigma^T\Sigma \in R^{n \times n}$ ，但是它們在主對角線的奇異值是相等的，即有：

$\Sigma \Sigma^{T}=\left[ \begin{array}{cccc}{\sigma_{1}^{2}} & {0} & {0} & {0} \\ {0} & {\sigma_{2}^{2}} & {0} & {0} \\ {0} & {0} & {\ddots} & {0} \\ {0} & {0} & {0} & {\ddots}\end{array}\right]_{\operatorname{mxm}} \Sigma^{T} \Sigma=\left[ \begin{array}{cccc}{\sigma_{1}^{2}} & {0} & {0} & {0} \\ {0} & {\sigma_{2}^{2}} & {0} & {0} \\ {0} & {0} & {\ddots} & {0} \\ {0} & {0} & {0} & {\ddots}\end{array}\right]_{n \times n}$

可以看到式 $（3）$ 與式 $（1）$ 的形式非常相同，進一步分析，我們可以發現 $AA^T$ 和 $A^TA$ 也是對稱矩陣，那麼可以利用式 $（1）$ ，做特徵值分解。利用式 $（3）$ 特徵值分解，得到的特徵矩陣即爲 $U$ ；利用式 $（4）$ 特徵值分解，得到的特徵矩陣即爲 $V$ ；對 $\Sigma\Sigma^T$ 或 $\Sigma^T\Sigma$ 中的特徵值開方，可以得到所有的奇異值。

四、奇異值分解應用

4.1、純數學例子

假設我們現在有矩陣 $A$ ，需要對其做奇異值分解，已知：
$A=\left( \begin{array}{ll}{2} & {4} \\ {1} & {3} \\ {0} & {0} \\ {0} & {0}\end{array}\right)$
那麼可以求出 $AA^T$ ，如下:
$A A^{T}=\left( \begin{array}{cccc}{20} & {14} & {0} & {0} \\ {14} & {10} & {0} & {0} \\ {0} & {0} & {0} & {0} \\ {0} & {0} & {0} & {0}\end{array}\right) \tag{5}$
接下來就是求這個矩陣的特徵值和特徵向量了:
$\begin{array}{c}{A A^{T} x=\lambda x} \\ {\left(A A^{T}-\lambda E\right) x=0}\end{array} \tag{6}$
要想該方程組有非零解（即非零特徵值），那麼係數矩陣 $A A ^ { T } - \lambda E$ 的行列式必須爲 $0$
$\left| \begin{array}{cccc}{20-\lambda} & {14} & {0} & {0} \\ {14} & {10-\lambda} & {0} & {0} \\ {0} & {0} & {-\lambda} & {0} \\ {0} & {0} & {0} & {-\lambda}\end{array}\right|=0 \tag{7}$
求解這個行列式我就不再贅述了，這個直接使用行列式展開定理就可以了，可以得到 $λ1≈29.86606875，λ2≈0.13393125，λ3=λ4=0$ ；有 4 個特徵值，因爲特徵多項式 $\vert AA^T - \lambda E \vert$ 是一個 4 次多項式。對應的單位化過的特徵向量爲
$\left( \begin{array}{cccc}{0.81741556} & {-0.57604844} & {0} & {0} \\ {0.57604844} & {0.81741556} & {0} & {0} \\ {0} & {0} & {1} & {0} \\ {0} & {0} & {0} & {1}\end{array}\right) \tag{8}$
這就是矩陣 $U$ 了。同樣的過程求解 $A^TA$ 的特徵值和特徵向量，求得 $λ1≈0.13393125，λ2≈29.86606875$ ，將特徵值降序排列後對應的單位化過的特徵向量爲:
$\left( \begin{array}{cc}{0.4045358} & {-0.9145143} \\ {0.9145143} & {0.40455358}\end{array}\right) \tag{9}$
這就是矩陣 $V$ 了。而矩陣 Σ 根據上面說的爲特徵值的平方根構成的對角矩陣：
$\left( \begin{array}{cc}{5.4649857} & {0} \\ {0} & {0.36596619} \\ {0} & {0} \\ {0} & {0}\end{array}\right) \tag{10}$
到此，SVD 分解就結束了，原來的矩陣 A 就被分解成了 3 個矩陣的乘積。
$A_{4 \times 2}=U_{4 \times 4} \Sigma_{4 \times 2} V_{2 \times 2}^{T} \tag{11}$
$\left( \begin{array}{cc}{2} & {4} \\ {1} & {3} \\ {0} & {0} \\ {0} & {0}\end{array}\right)=\left( \begin{array}{cccc}{0.81741556} & {-0.57604844} & {0} & {0} \\ {0.57604844} & {0.81741556} & {0} & {0} \\ {0} & {0} & {1} & {0} \\ {0} & {0} & {0} & {1}\end{array}\right)\left( \begin{array}{cc}{5.4649857} & {0} \\ {0} & {0.36596619} \\ {0} & {0} \\ {0} & {0}\end{array}\right) \left( \begin{array}{cc}{0.40453358} & {-0.9145143} \\ {0.9145143} \tag{12}& {0.40455358}\end{array}\right)^{T}$

4.2、Numpy 實現

使用pyhon中的numpy 包的 linalg.svd() 來求解 SVD。分別對上面做特徵值分解，得到如下結果：

import numpy as np
A = np.array([[2, 4], [1, 3], [0, 0], [0, 0]])
print(np.linalg.svd(A))

zhangkf@john:~$ python svd.py 
(array([[-0.81741556, -0.57604844,  0.        ,  0.        ],
       [-0.57604844,  0.81741556,  0.        ,  0.        ],
       [ 0.        ,  0.        ,  1.        ,  0.        ],
       [ 0.        ,  0.        ,  0.        ,  1.        ]]), 
array([5.4649857 , 0.36596619]), 
array([[-0.40455358, -0.9145143 ],
       [-0.9145143 ,  0.40455358]]))

最後感謝以下作者的博客：

矩陣論筆記：奇異值分解SVD(Singular Value Decomposition)總結

文章目錄

一、相關概念

1.1、正交矩陣

1.2、正定矩陣

二、特徵值分解（EVD）

三、奇異值分解（SVD）

3.1、奇異值分解定義

3.2、奇異值求解

四、奇異值分解應用

4.1、純數學例子

4.2、Numpy 實現

關於接口協議，你必須要知道這些！

一鍵自動化博客發佈工具,用過的人都說好(頭條篇)

美團一面：項目中有 10000 個 if else 如何優化？想了半天，被問懵了！

京東面試：如何進行JVM調優？

01 穩定性（一）如何應對事故並做好覆盤？

線程池那些坑爹的參數-核心線程數&最大線程數&工作隊列

Stream流常用方法總結

〖TensorFlow2.0筆記25〗循環神經網絡RNN原理講解以及實戰！

〖Leetcode-1〗10大排序算法總結(C++實現)！

如何簡單理解貝葉斯決策理論(Bayes Decision Theory)？

『自己的工作6』MNIST Plus++競賽(更加困難的mnist數據集競賽)！

『論文筆記』BAM:Bottleneck Attention Module(注意力機制)+TensorFlow2.0復現！

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結