（一）矩陣

引例SVD

什麼是SVD？

奇異值分解（Singular Value Decomposition）是一種重要的矩陣分解方法，可以看作對稱方陣在任意矩陣上的推廣。

與特徵值、特徵向量概念相對應：

$\sum_{}$ 對角線上的元素稱爲矩陣A的奇異值
U 的第i列稱爲A的關於 $\sigma_i$ 的左奇異向量
V 的第i列稱爲A的關於 $\sigma_i$ 的右奇異向量

舉例

已知 $4 \times 5$ 階實矩陣A，求A的SVD分解：
一個圖像也可以看作一個矩陣，進行分解

基礎概念

定義

線性代數定義：方陣行列式

1階方陣行列式是該元素本身
n階方陣行列式等於它任一行/列各元素與其對應的代數餘子式乘積之和

代數餘子式

餘子式
在一個n階行列式A中，把（i，j）元素 $a_ij$ 所在的第i行和第j列劃去後，留下的n-1階方陣的行列式叫做元素 $a_ij$ 的餘子式，記作 $M_ij$
代數餘子式
代數餘子式 $A_ij$ = $(-1)^{i+j}$ $M_ij$

伴隨矩陣

對於 $n \times n$ 方陣的任意元素 $a_ij$ 都有各自的代數餘子式 $A_ij$ = $(-1)^{i+j}$ $M_ij$ ，
構造 $n \times n$ 的方陣 $A^*$ ：

$A^*$ 是A的伴隨矩陣
$A_ij$ 位於 $A^*$ 的第j行第i列

方陣的逆

$A\cdot A^*=|A|\cdot I$
推導過程如下：

範德蒙行列式

證明範德蒙行列式，使用數學歸納法

矩陣的乘法/狀態轉移矩陣

矩陣乘法

A爲 $m \times s$ 階矩陣，B爲 $s \times n$ 階矩陣，那麼，C= $A \times B$ 階矩陣是 $m \times n$ 階矩陣，其中

矩陣和向量乘法

A爲 $m \times n$ 階矩陣，B爲 $n \times 1$ 階矩陣，則 $Ax$ 爲 $m \times 1$ 列向量，記爲 $\overrightarrow{y} = A\cdot$ $\overrightarrow{x}$
由於n維列向量和n維空間的點一一對應，上式也是從n維空間的點到m維空間點的線性變換（旋轉、平移）。
特殊的，若m=n，Ax完成的是n維空間內的線性變換。

應用：機械手臂移動

狀態轉移矩陣

狀態轉義概率
某隨機過程，狀態有n個，用1—n表示。記在當前時刻t時位於i狀態，再t+1時刻位於j狀態的概率爲P（i，j）= P（j | i），即狀態轉移概率只依賴於前一個狀態。
概率轉移矩陣
第n+1代中處於第j個階層的概率爲：

此式中矩陣P爲（條件）概率轉移矩陣。第i行元素表示，在上一個狀態爲i時的分佈概率，即：每一行元素和爲1。
平穩分佈
轉移概率矩陣性質是初始概率不同，經過若干次迭代，最終穩定收斂在某個分佈上，稱爲平穩分佈，這個性質不是初始分佈的性質。
以下兩種寫法等價：

如果概率分佈 $\pi P = \pi$ ，說明：
（1）該多項分佈是狀態轉移矩陣P的平穩分佈；
（2）線性方程xP = x的非負解爲 $\pi$ ，而 $P^n$ 唯一，因此 $\pi$ 是線性方程xP = x的唯一非負解

矩陣和向量組

矩陣的秩

設在矩陣A中有一個不等於零的r階子式D，且所有r+1階子式（若存在）爲0，那麼D爲矩陣A的最高階非零子式，r稱爲矩陣A的秩，記爲 $R(A)=r$ 。

$n \times n$ 的可逆矩陣，秩爲n
可逆矩陣又稱滿秩矩陣
矩陣的秩等於它行（列）向量組的秩

秩和線性方程組解的關係

對於n元線性方程組 $Ax = b$

無解的充要條件是 $R(A) < R(A,b)$
有唯一解的充要條件是 $R(A) = R(A,b) = n$
有無限多解的充要條件是 $R(A) = R(A,b) < n$
推論
$Ax = 0$ 有非零解的充要條件是 $R(A) < n$
$Ax = b$ 有解的充要條件是 $R(A) = R(A,b)$

向量組等價

什麼是向量組等價
向量 $\overrightarrow{b}$ 能由向量組A： $\overrightarrow{a_1}$ , $\overrightarrow{a_2}$ ,… $\overrightarrow{a_m}$ 線性表出的充要條件是矩陣A=( $\overrightarrow{a_1}$ , $\overrightarrow{a_2}$ ,… $\overrightarrow{a_m}$ ）的秩等於矩陣B=( $\overrightarrow{a_1}$ , $\overrightarrow{a_2}$ ,… $\overrightarrow{a_m}$ , $\overrightarrow{b}$ )的秩
設有兩個向量組A： $\overrightarrow{a_1}$ , $\overrightarrow{a_2}$ ,… $\overrightarrow{a_m}$ 和B： $\overrightarrow{b_1}$ , $\overrightarrow{b_2}$ ,… $\overrightarrow{b_n}$ ，若向量組A和向量組B能夠相互表出，則稱向量組A和向量組B等價
係數矩陣
將向量組A和B所構成的矩陣依次記作A = （ $\overrightarrow{a_1}$ , $\overrightarrow{a_2}$ ,… $\overrightarrow{a_m}$ ）和 B = （ $\overrightarrow{b_1}$ , $\overrightarrow{b_2}$ ,… $\overrightarrow{b_n}$ ），B組能由A組線性表示，即對每個向量 $b_j$ ，存在 $\overrightarrow{k_{1j}}$ , $\overrightarrow{k_{2j}}$ ,… $\overrightarrow{k_{mj}}$ ，使得
$b_j=k_{1j}a_1+k_{2j}a_2+...k_{mj}a_m = \begin{pmatrix} a_1 & a_2 & \cdots && a_m \\ \end{pmatrix}\begin{pmatrix}k_{1j} \\ k_{2j} \\ \vdots \\k_{mj} \\ \end{pmatrix}$
從而得到稀疏矩陣
$\begin{pmatrix} b_1 & b_2 & \cdots && b_m \\ \end{pmatrix} = \begin{pmatrix} a_1 & a_2 & \cdots && a_m \\ \end{pmatrix} \begin{pmatrix} k_{11} & k_{12} & \cdots & k_{1n} \\ k_{21} & k_{22} & \cdots & k_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ k_{m1} & k_{m2} & \cdots & k_{mn} \\ \end{pmatrix}$
重認識 $C=AB$
若 $C=AB$ ，則矩陣C的列向量能由A的列向量線性表示，B即爲這一表示的係數矩陣；矩陣C的行向量能由B的行向量線性表示，A即爲這一表示的係數矩陣。
向量組 $B：\overrightarrow{b_1}$ , $\overrightarrow{b_2}$ ,… $\overrightarrow{b_n}$ 能由向量組 $A：\overrightarrow{a_1}$ , $\overrightarrow{a_2}$ ,… $\overrightarrow{a_m}$ 線性表示的充要條件是矩陣 $A=（\overrightarrow{a_1}$ , $\overrightarrow{a_2}$ ,… $\overrightarrow{a_m}）$ 的秩等於矩陣 $（A，B）=（\overrightarrow{a_1}$ , $\overrightarrow{a_2}$ ,… $\overrightarrow{a_m},\overrightarrow{b_1}$ , $\overrightarrow{b_2}$ ,… $\overrightarrow{b_n}）$ 的秩，即爲 $R(A) = R(A,B)$ 。
正交陣
若n階矩陣滿足 $\mathbf{A}^\mathrm{T}A = 1$ ，則A爲正交矩陣，簡稱正交陣。
充要條件：A的行（列）向量都是單位向量，且兩兩正交。
正交變換：A是正交陣，x爲向量，則 $A \cdot x$ 稱爲正交變換。正交變換不改變向量長度

（二）特徵值和特徵向量

特徵向量

定義：

A是n階矩陣，若 $\lambda$ 和 $n$ 維非0列向量x滿足 $Ax=\lambda x$ ，那麼 $\lambda$ 稱爲A的特徵值， $x$ 稱爲A的對於特徵值 $\lambda$ 的特徵向量。

求解：

由定義得 $（A-\lambda I） x=0$ ，令關於 $\lambda$ 的多項式 $|A-\lambda I|$ 爲 $0$ ，方程 $|A-\lambda I|=0$ 的根爲A的特徵值，將 $\lambda_0$ 代入方程組 $（A-\lambda I） x=0$ ，求得到的非零解，即 $\lambda_0$ 對應的特徵向量。

性質：

設 $n$ 階矩陣 $A=(a_{ij})$ 的特徵值爲 $\lambda_1,\lambda_2,...\lambda_n$ 則
（1） $\lambda_1+\lambda_2+...+\lambda_n=a_{11}+a_{22}+...+a_{nn}$
（2） $\lambda_1\lambda_2...\lambda_n=|A|$

trace/矩陣的跡：

矩陣A主行列式的元素和

不同特徵值對應的特徵向量：

設 $\lambda_1,\lambda_2,...\lambda_n$ 是方陣A的m個特徵值， $p_1,p_2,...p_m$ 是依次與之對應的特徵向量，若 $\lambda_1,\lambda_2,...\lambda_n$ 各不相等，則 $p_1,p_2,...p_m$ 線性無關。
不同特徵值對應的特徵向量，線性無關

引理：

實對稱矩陣的特徵值是實數。
設複數 $\lambda$ 爲對稱陣 $A$ 的特徵值，復向量x爲對應的特徵向量，即 $Ax=\lambda x(x\neq 0)$
用 $\overline{\lambda}$ 表示 $\lambda$ 的共軛複數， $\overline{x}$ 表示 $x$ 的共軛復向量，而 $A$ 是實矩陣，則有 $\overline{A}=A$ ，證明如下：
$A\overline{x}=\overline{A}\overline{x}=\overline{Ax}=\overline{\lambda x}=\overline{\lambda}\overline{x}$

因爲 $\overline{x}^T(Ax)= \overline{x}^T\lambda x= \lambda \overline{x}^Tx$

$\overline{x}^T(Ax)= (\overline{x}^TA)x= (A\overline{x})^Tx= (\lambda \overline{x})^Tx= \overline{\lambda }\overline{x}^Tx$
從而
$\lambda \overline{x}^Tx= \overline{\lambda }\overline{x}^Tx \implies (\lambda - \overline{\lambda}) \overline{x}^Tx=0$
而

所以
$\lambda- \overline{\lambda}=0\implies \lambda= \overline{\lambda}$

對稱陣、正交陣、正定陣

對稱陣

實對稱陣的特徵向量可以取實向量
實對稱陣不同特徵值的特徵向量正交
證明：令實對稱矩陣爲A，其兩個不同的特徵值 $\lambda_1\lambda_2$ 對應的特徵向量分別是 $\mu_1\mu_2$
$\begin{cases} A\mu_1=\lambda_1\mu_1 \\ A\mu_2=\lambda_2\mu_2\implies \mu_1^TA\mu_2=\mu_1^T\lambda\mu_2 \end{cases}$

$(A^T\mu_1)^T\mu_2=\lambda_2\mu_1^T\mu_2 \implies (A\mu_1)^T\mu_2=\lambda_2\mu_1^T\mu_2$

$\implies(\lambda_1\mu_1)^T\mu_2=\lambda_2\mu_1^T\mu_2$

$\implies \lambda_1 \mu_1^T \mu_2 = \lambda_2 \mu_1^T \mu_2$

$\underrightarrow{\lambda_1\not=\lambda_2} \mu_1^T\mu_2=0$

正交陣

A爲n階對稱陣，則必有正交陣P，使得 $P^{-1}AP=P^TAP=\Lambda$
$\Lambda$ 是以A的n個特徵值爲對角元的對角陣
此變換稱爲合同變換， $A$ 和 $\Lambda$ 互爲合同矩陣

正定陣

（1）定義：對於n階方陣A，若任意n階向量x，都有 $x^TAx>0$ ，則稱A是正定陣。

若條件變成 $x^TAx$ 大於等於0，則A稱作半正定矩陣
（2）判定：
$\fbox{對稱陣A爲正定陣} 等價 \fbox{A的特徵值都爲正} 等價 \fbox{A的順序主子式大於0}$
n階半正定陣的集合爲凸錐。

數據白化

計算觀測數據x的 $n \times n$ 的對稱陣 $x \times x^T$ 的特徵值和特徵向量，用特徵值形成對角陣D，特徵向量形成正交陣U，則： $x \times x^T = U^TDU$
令 $\tilde{x}=U^TD^{-0.5}U\cdot x$

正交基

在n維歐式空間中，由n個非零向量組成的正交向量組稱爲正交基

QR分解/LFM

QR分解

對於 $m \times n$ 列滿秩矩陣 $A$ ，必有 $A_{m \times n}=Q_{m\times n}\cdot R_{m\times n}$ ，其中 $Q$ 是列正交矩陣， $R$ 爲非奇異上三角矩陣，當要求 $R$ 的對角線元素爲正時，該分解唯一，是 $QR$ 分解，可用於求解矩陣 $A$ 的特徵值，A的逆等問題。

計算n階方陣A的特徵值：
$A=Q\cdot R \implies A_1=Q^TAQ=R\cdot Q$

$......$

$A_k=Q_k\cdot R_k \implies A_{k+1}=R_k \cdot Q_k$

$......$

$A_k\to diag{\lbrace \lambda_1,\lambda_2,...,\lambda_n\rbrace}$

LFM

$Latent Factor Model$
對於K個隱變量，得 $A_{m \times n}=U_{m\times k}\cdot V_{n\times k}^T$
目標函數：
$J(U,V;A)=\sum_{i=1}^m \sum_{j=1}^n (a_{ij}-\sum_{r=1}^ku{ir}\cdot v_{jr})^2 +\lambda (\sum_{i=1}^m \sum_{r=1}^ku{ir}^2+\sum_{j=1}^m \sum_{r=1}^ku{jr}^2) \quad$
梯度：

（三）矩陣求導

向量對向量求導

線性迴歸中直接使用下式
$\frac {\partial A\vec{x} }{\partial \vec{x}}=A^T , \frac {\partial A\vec{x} }{\partial \vec{x}^T}=A, \frac {\partial({\vec{x}}^T A)}{\partial \vec{x}}=A$

推導如下：

標量對向量求導

$A$ 爲 $n \times n$ 的矩陣， $x$ 爲 $n \times 1$ 的列向量，記 $y={\vec{x}}^T \cdot A \cdot \vec{x}$
$\frac {\partial y}{\partial \vec{x}}= \frac {\partial {({\vec{x}}^T\cdot A \cdot \vec{x})}}{\partial \vec{x}}= (A^T+A)\cdot \vec{x}$

若A爲對稱陣，則有 $\frac {\partial {({\vec{x}}^T\cdot A \cdot \vec{x})}}{\partial \vec{x}}= 2A\cdot \vec{x}$
推導如下：

標量對矩陣求導

$A$ 爲 $n \times n$ 的矩陣， $|A|$ 爲 $A$ 的行列式， $\frac {\partial |A|}{\partial A}={(A^*)}^T=|A| \cdot (A^{-1})^T$ ，證明如下：

矩陣乘法詳解+例題

機器學習數學基礎（三）：線性代數 矩陣

機器學習數學基礎（三）