（一）矩阵

引例SVD

什么是SVD？

奇异值分解（Singular Value Decomposition）是一种重要的矩阵分解方法，可以看作对称方阵在任意矩阵上的推广。

与特征值、特征向量概念相对应：

$\sum_{}$ 对角线上的元素称为矩阵A的奇异值
U 的第i列称为A的关于 $\sigma_i$ 的左奇异向量
V 的第i列称为A的关于 $\sigma_i$ 的右奇异向量

举例

已知 $4 \times 5$ 阶实矩阵A，求A的SVD分解：
一个图像也可以看作一个矩阵，进行分解

基础概念

定义

线性代数定义：方阵行列式

1阶方阵行列式是该元素本身
n阶方阵行列式等于它任一行/列各元素与其对应的代数余子式乘积之和

代数余子式

余子式
在一个n阶行列式A中，把（i，j）元素 $a_ij$ 所在的第i行和第j列划去后，留下的n-1阶方阵的行列式叫做元素 $a_ij$ 的余子式，记作 $M_ij$
代数余子式
代数余子式 $A_ij$ = $(-1)^{i+j}$ $M_ij$

伴随矩阵

对于 $n \times n$ 方阵的任意元素 $a_ij$ 都有各自的代数余子式 $A_ij$ = $(-1)^{i+j}$ $M_ij$ ，
构造 $n \times n$ 的方阵 $A^*$ ：

$A^*$ 是A的伴随矩阵
$A_ij$ 位于 $A^*$ 的第j行第i列

方阵的逆

$A\cdot A^*=|A|\cdot I$
推导过程如下：

范德蒙行列式

证明范德蒙行列式，使用数学归纳法

矩阵的乘法/状态转移矩阵

矩阵乘法

A为 $m \times s$ 阶矩阵，B为 $s \times n$ 阶矩阵，那么，C= $A \times B$ 阶矩阵是 $m \times n$ 阶矩阵，其中

矩阵和向量乘法

A为 $m \times n$ 阶矩阵，B为 $n \times 1$ 阶矩阵，则 $Ax$ 为 $m \times 1$ 列向量，记为 $\overrightarrow{y} = A\cdot$ $\overrightarrow{x}$
由于n维列向量和n维空间的点一一对应，上式也是从n维空间的点到m维空间点的线性变换（旋转、平移）。
特殊的，若m=n，Ax完成的是n维空间内的线性变换。

应用：机械手臂移动

状态转移矩阵

状态转义概率
某随机过程，状态有n个，用1—n表示。记在当前时刻t时位于i状态，再t+1时刻位于j状态的概率为P（i，j）= P（j | i），即状态转移概率只依赖于前一个状态。
概率转移矩阵
第n+1代中处于第j个阶层的概率为：

此式中矩阵P为（条件）概率转移矩阵。第i行元素表示，在上一个状态为i时的分布概率，即：每一行元素和为1。
平稳分布
转移概率矩阵性质是初始概率不同，经过若干次迭代，最终稳定收敛在某个分布上，称为平稳分布，这个性质不是初始分布的性质。
以下两种写法等价：

如果概率分布 $\pi P = \pi$ ，说明：
（1）该多项分布是状态转移矩阵P的平稳分布；
（2）线性方程xP = x的非负解为 $\pi$ ，而 $P^n$ 唯一，因此 $\pi$ 是线性方程xP = x的唯一非负解

矩阵和向量组

矩阵的秩

设在矩阵A中有一个不等于零的r阶子式D，且所有r+1阶子式（若存在）为0，那么D为矩阵A的最高阶非零子式，r称为矩阵A的秩，记为 $R(A)=r$ 。

$n \times n$ 的可逆矩阵，秩为n
可逆矩阵又称满秩矩阵
矩阵的秩等于它行（列）向量组的秩

秩和线性方程组解的关系

对于n元线性方程组 $Ax = b$

无解的充要条件是 $R(A) < R(A,b)$
有唯一解的充要条件是 $R(A) = R(A,b) = n$
有无限多解的充要条件是 $R(A) = R(A,b) < n$
推论
$Ax = 0$ 有非零解的充要条件是 $R(A) < n$
$Ax = b$ 有解的充要条件是 $R(A) = R(A,b)$

向量组等价

什么是向量组等价
向量 $\overrightarrow{b}$ 能由向量组A： $\overrightarrow{a_1}$ , $\overrightarrow{a_2}$ ,… $\overrightarrow{a_m}$ 线性表出的充要条件是矩阵A=( $\overrightarrow{a_1}$ , $\overrightarrow{a_2}$ ,… $\overrightarrow{a_m}$ ）的秩等于矩阵B=( $\overrightarrow{a_1}$ , $\overrightarrow{a_2}$ ,… $\overrightarrow{a_m}$ , $\overrightarrow{b}$ )的秩
设有两个向量组A： $\overrightarrow{a_1}$ , $\overrightarrow{a_2}$ ,… $\overrightarrow{a_m}$ 和B： $\overrightarrow{b_1}$ , $\overrightarrow{b_2}$ ,… $\overrightarrow{b_n}$ ，若向量组A和向量组B能够相互表出，则称向量组A和向量组B等价
系数矩阵
将向量组A和B所构成的矩阵依次记作A = （ $\overrightarrow{a_1}$ , $\overrightarrow{a_2}$ ,… $\overrightarrow{a_m}$ ）和 B = （ $\overrightarrow{b_1}$ , $\overrightarrow{b_2}$ ,… $\overrightarrow{b_n}$ ），B组能由A组线性表示，即对每个向量 $b_j$ ，存在 $\overrightarrow{k_{1j}}$ , $\overrightarrow{k_{2j}}$ ,… $\overrightarrow{k_{mj}}$ ，使得
$b_j=k_{1j}a_1+k_{2j}a_2+...k_{mj}a_m = \begin{pmatrix} a_1 & a_2 & \cdots && a_m \\ \end{pmatrix}\begin{pmatrix}k_{1j} \\ k_{2j} \\ \vdots \\k_{mj} \\ \end{pmatrix}$
从而得到稀疏矩阵
$\begin{pmatrix} b_1 & b_2 & \cdots && b_m \\ \end{pmatrix} = \begin{pmatrix} a_1 & a_2 & \cdots && a_m \\ \end{pmatrix} \begin{pmatrix} k_{11} & k_{12} & \cdots & k_{1n} \\ k_{21} & k_{22} & \cdots & k_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ k_{m1} & k_{m2} & \cdots & k_{mn} \\ \end{pmatrix}$
重认识 $C=AB$
若 $C=AB$ ，则矩阵C的列向量能由A的列向量线性表示，B即为这一表示的系数矩阵；矩阵C的行向量能由B的行向量线性表示，A即为这一表示的系数矩阵。
向量组 $B：\overrightarrow{b_1}$ , $\overrightarrow{b_2}$ ,… $\overrightarrow{b_n}$ 能由向量组 $A：\overrightarrow{a_1}$ , $\overrightarrow{a_2}$ ,… $\overrightarrow{a_m}$ 线性表示的充要条件是矩阵 $A=（\overrightarrow{a_1}$ , $\overrightarrow{a_2}$ ,… $\overrightarrow{a_m}）$ 的秩等于矩阵 $（A，B）=（\overrightarrow{a_1}$ , $\overrightarrow{a_2}$ ,… $\overrightarrow{a_m},\overrightarrow{b_1}$ , $\overrightarrow{b_2}$ ,… $\overrightarrow{b_n}）$ 的秩，即为 $R(A) = R(A,B)$ 。
正交阵
若n阶矩阵满足 $\mathbf{A}^\mathrm{T}A = 1$ ，则A为正交矩阵，简称正交阵。
充要条件：A的行（列）向量都是单位向量，且两两正交。
正交变换：A是正交阵，x为向量，则 $A \cdot x$ 称为正交变换。正交变换不改变向量长度

（二）特征值和特征向量

特征向量

定义：

A是n阶矩阵，若 $\lambda$ 和 $n$ 维非0列向量x满足 $Ax=\lambda x$ ，那么 $\lambda$ 称为A的特征值， $x$ 称为A的对于特征值 $\lambda$ 的特征向量。

求解：

由定义得 $（A-\lambda I） x=0$ ，令关于 $\lambda$ 的多项式 $|A-\lambda I|$ 为 $0$ ，方程 $|A-\lambda I|=0$ 的根为A的特征值，将 $\lambda_0$ 代入方程组 $（A-\lambda I） x=0$ ，求得到的非零解，即 $\lambda_0$ 对应的特征向量。

性质：

设 $n$ 阶矩阵 $A=(a_{ij})$ 的特征值为 $\lambda_1,\lambda_2,...\lambda_n$ 则
（1） $\lambda_1+\lambda_2+...+\lambda_n=a_{11}+a_{22}+...+a_{nn}$
（2） $\lambda_1\lambda_2...\lambda_n=|A|$

trace/矩阵的迹：

矩阵A主行列式的元素和

不同特征值对应的特征向量：

设 $\lambda_1,\lambda_2,...\lambda_n$ 是方阵A的m个特征值， $p_1,p_2,...p_m$ 是依次与之对应的特征向量，若 $\lambda_1,\lambda_2,...\lambda_n$ 各不相等，则 $p_1,p_2,...p_m$ 线性无关。
不同特征值对应的特征向量，线性无关

引理：

实对称矩阵的特征值是实数。
设复数 $\lambda$ 为对称阵 $A$ 的特征值，复向量x为对应的特征向量，即 $Ax=\lambda x(x\neq 0)$
用 $\overline{\lambda}$ 表示 $\lambda$ 的共轭复数， $\overline{x}$ 表示 $x$ 的共轭复向量，而 $A$ 是实矩阵，则有 $\overline{A}=A$ ，证明如下：
$A\overline{x}=\overline{A}\overline{x}=\overline{Ax}=\overline{\lambda x}=\overline{\lambda}\overline{x}$

因为 $\overline{x}^T(Ax)= \overline{x}^T\lambda x= \lambda \overline{x}^Tx$

$\overline{x}^T(Ax)= (\overline{x}^TA)x= (A\overline{x})^Tx= (\lambda \overline{x})^Tx= \overline{\lambda }\overline{x}^Tx$
从而
$\lambda \overline{x}^Tx= \overline{\lambda }\overline{x}^Tx \implies (\lambda - \overline{\lambda}) \overline{x}^Tx=0$
而

所以
$\lambda- \overline{\lambda}=0\implies \lambda= \overline{\lambda}$

对称阵、正交阵、正定阵

对称阵

实对称阵的特征向量可以取实向量
实对称阵不同特征值的特征向量正交
证明：令实对称矩阵为A，其两个不同的特征值 $\lambda_1\lambda_2$ 对应的特征向量分别是 $\mu_1\mu_2$
$\begin{cases} A\mu_1=\lambda_1\mu_1 \\ A\mu_2=\lambda_2\mu_2\implies \mu_1^TA\mu_2=\mu_1^T\lambda\mu_2 \end{cases}$

$(A^T\mu_1)^T\mu_2=\lambda_2\mu_1^T\mu_2 \implies (A\mu_1)^T\mu_2=\lambda_2\mu_1^T\mu_2$

$\implies(\lambda_1\mu_1)^T\mu_2=\lambda_2\mu_1^T\mu_2$

$\implies \lambda_1 \mu_1^T \mu_2 = \lambda_2 \mu_1^T \mu_2$

$\underrightarrow{\lambda_1\not=\lambda_2} \mu_1^T\mu_2=0$

正交阵

A为n阶对称阵，则必有正交阵P，使得 $P^{-1}AP=P^TAP=\Lambda$
$\Lambda$ 是以A的n个特征值为对角元的对角阵
此变换称为合同变换， $A$ 和 $\Lambda$ 互为合同矩阵

正定阵

（1）定义：对于n阶方阵A，若任意n阶向量x，都有 $x^TAx>0$ ，则称A是正定阵。

若条件变成 $x^TAx$ 大于等于0，则A称作半正定矩阵
（2）判定：
$\fbox{对称阵A为正定阵} 等价 \fbox{A的特征值都为正} 等价 \fbox{A的顺序主子式大于0}$
n阶半正定阵的集合为凸锥。

数据白化

计算观测数据x的 $n \times n$ 的对称阵 $x \times x^T$ 的特征值和特征向量，用特征值形成对角阵D，特征向量形成正交阵U，则： $x \times x^T = U^TDU$
令 $\tilde{x}=U^TD^{-0.5}U\cdot x$

正交基

在n维欧式空间中，由n个非零向量组成的正交向量组称为正交基

QR分解/LFM

QR分解

对于 $m \times n$ 列满秩矩阵 $A$ ，必有 $A_{m \times n}=Q_{m\times n}\cdot R_{m\times n}$ ，其中 $Q$ 是列正交矩阵， $R$ 为非奇异上三角矩阵，当要求 $R$ 的对角线元素为正时，该分解唯一，是 $QR$ 分解，可用于求解矩阵 $A$ 的特征值，A的逆等问题。

计算n阶方阵A的特征值：
$A=Q\cdot R \implies A_1=Q^TAQ=R\cdot Q$

$......$

$A_k=Q_k\cdot R_k \implies A_{k+1}=R_k \cdot Q_k$

$......$

$A_k\to diag{\lbrace \lambda_1,\lambda_2,...,\lambda_n\rbrace}$

LFM

$Latent Factor Model$
对于K个隐变量，得 $A_{m \times n}=U_{m\times k}\cdot V_{n\times k}^T$
目标函数：
$J(U,V;A)=\sum_{i=1}^m \sum_{j=1}^n (a_{ij}-\sum_{r=1}^ku{ir}\cdot v_{jr})^2 +\lambda (\sum_{i=1}^m \sum_{r=1}^ku{ir}^2+\sum_{j=1}^m \sum_{r=1}^ku{jr}^2) \quad$
梯度：

（三）矩阵求导

向量对向量求导

线性回归中直接使用下式
$\frac {\partial A\vec{x} }{\partial \vec{x}}=A^T , \frac {\partial A\vec{x} }{\partial \vec{x}^T}=A, \frac {\partial({\vec{x}}^T A)}{\partial \vec{x}}=A$

推导如下：

标量对向量求导

$A$ 为 $n \times n$ 的矩阵， $x$ 为 $n \times 1$ 的列向量，记 $y={\vec{x}}^T \cdot A \cdot \vec{x}$
$\frac {\partial y}{\partial \vec{x}}= \frac {\partial {({\vec{x}}^T\cdot A \cdot \vec{x})}}{\partial \vec{x}}= (A^T+A)\cdot \vec{x}$

若A为对称阵，则有 $\frac {\partial {({\vec{x}}^T\cdot A \cdot \vec{x})}}{\partial \vec{x}}= 2A\cdot \vec{x}$
推导如下：

标量对矩阵求导

$A$ 为 $n \times n$ 的矩阵， $|A|$ 为 $A$ 的行列式， $\frac {\partial |A|}{\partial A}={(A^*)}^T=|A| \cdot (A^{-1})^T$ ，证明如下：

矩阵乘法详解+例题

机器学习数学基础（三）：线性代数 矩阵

机器学习数学基础（三）