文章目录

前言：这篇blog是《Linear Algebra and Its Applications》第六章的一些学习笔记。

正定矩阵

这一章要用到对实对称矩阵 $A$ 的三角分解 $A=LDL^{T}$ ，以及谱定理 $A=Q\Lambda Q^{T}$

1. 正定矩阵

对任意非零实向量 $x$ ，有 $x^{T}Ax>0$ ，则 $A$ 为正定矩阵。

在线性代数中，正定矩阵是对称矩阵，因为来自二次型；对任一二次型，总可以写成对称矩阵的形式，即 $f(x_{1}, x_{2}\dots x_{n})=x^{T}Ax=\sum\limits_{i=1}^{n}\sum\limits_{j=1}^{n}a_{ij}x_{i}x_{j}$

如果 $A$ 是正定矩阵，则 $x^{T}Ax$ 表示的二次型有最小值，不存在鞍点。

但在矩阵论中，正定矩阵不一定是对称矩阵，例如 $\left [ \begin{matrix} 1 & -1 \\ 1 & 0\end{matrix}\right ]$

1.1. 实对称矩阵是正定矩阵的充要条件

判断实对称矩阵 $A$ 是否为正定矩阵，有5个充要条件，只要满足其中一个即可。

$x^{T}Ax>0$ ，对所有非零实向量 $x$ 均成立；
$A$ 的所有特征值 $\lambda_{i}$ 满足 $\lambda_{i}>0$ ；
所有顺序主子式 $A_{k}$ 是正的；
所有主元(piovts)大于0(最快捷条件)；
$A$ 能分解成 $R^{T}R$ ，其中R的列向量相互独立。

证明：

条件1：定义，证毕。

条件2 $\Longleftrightarrow$ 条件1：对 $A$ 进行分解， $A=Q\Lambda Q^{T}$ ，有 $x^{T}Ax=x^{T}Q\Lambda Q^{T}x$ ，令 $x^{T}Q=y^{T}$ ，则 $x^{T}Ax=y^{T}\Lambda y=\sum\limits_{i=1}^{n}\lambda_{i}y_{i}^{2}$ ，根据条件1，如果实对称矩阵 $A$ 是正定矩阵，则任意非零向量 $x$ ， $x^{T}Ax$ 恒大于0，所以 $\sum\limits_{i=1}^{n}\lambda_{i}y_{i}^{2}$ 恒大于0，所以 $\lambda_{i}>0$ ，证毕。

条件1和2 $\Longrightarrow$ 条件3：对于实对称矩阵 $A$ ，以证明 $A_{3}$ 为例，令 $x=[x_{1}, x_{2},x_{3},0,0,0,\dots]^{T}$ ，则 $x^{T}Ax$ 等价于 $[x_{1},x_{2},x_{3}]\left [ \begin{matrix} a_{11} & a_{12} & a_{13} \\ a_{21} & a_{22} & a_{23} \\ a_{31} & a_{32} & a_{33} \end{matrix} \right ]\left [ \begin{matrix} x_{1} \\ x_{2} \\ x_{3}\end{matrix} \right ]\tag{1}$

根据条件1，如果实对称矩阵 $A$ 是正定矩阵，则 $x^{T}Ax>0$ ，所以(1)的中间矩阵也应该是正定矩阵，根据条件2，(1)的中间矩阵的所有特征值大于0，所以 $A_{3}=(1)的中间矩阵的所有特征值乘积>0$ 证毕。方阵的行列式等于所有特征值乘积，在第五章特征值与特征向量中推导过这一结论。

条件3 $\Longrightarrow$ 条件4：以 $d_{3}$ 为例， $d_{3}=\frac{A_{3}}{A_{2}}>0$ ，证毕。关于求 $d_{3}$ 用的表达式，在第四章行列式中推导过。

条件4 $\Longrightarrow$ 条件1，对 $A$ 进行三角分解 $A=LDL^{T}$ ，则 $x^{T}Ax=x^{T}LDL^{T}x$ ，令 $y=L^{T}x$ ，则 $x^{T}Ax=y^{T}Dy$ ，对角矩阵 $D$ 存的是 $A$ 的主元(pivots)，所以 $y^{T}Dy=\sum\limits_{i=1}^{n}d_{i}y_{i}^{2}>0$ 可以推出 $x^{T}Ax>0$

至此，条件1-4相互均可以推导。

条件5 $\Longleftrightarrow$ 条件4： $A=LDL^{T}=(L\sqrt{D})(\sqrt{D}L^{T})=R^{T}R$ ，其中 $R=\sqrt{D}L^{T}$ ；或者条件5 $\Longleftrightarrow$ 条件2： $A=Q\Lambda Q^{T}=(Q\sqrt{\Lambda})(\sqrt{\Lambda}Q^{T})=R^{T}R$ ，其中 $R=\sqrt{\Lambda}Q^{T}$

1.2. 实对称矩阵是半正定矩阵的充要条件

半正定矩阵就是对任意非零实向量 $x$ ，有 $x^{T}Ax\geq0$ ，相对正定矩阵多了等于0；相应的充要条件也加上了等号。

$x^{T}Ax\geq0$ ，对所有非零实向量；
$A$ 的所有特征值 $\lambda_{i}$ 满足 $\lambda_{i}\geq0$ ；
所有顺序主子式 $A_{k}$ 是 $\geq 0$ 的；
所有主元 $piovts \geq 0$ (最快捷条件)；
$A$ 能分解成 $R^{T}R$ ，其中R的列向量相互独立。

证明：考虑 $A+\varepsilon I$ 正定，当 $\varepsilon > 0$ 。

1.3. 实对称矩阵与正定矩阵的分解

实对称矩阵不一定可以三角分解 $A=LDL^{T}$ ，但可以 $A=Q\Lambda Q^{T}$ 分解，正定矩阵两种分解都可以。

$A=LDL^{T}$ 与 $A=Q\Lambda Q^{T}$ 本质上都是二次型配方。

2. 惯性定理

2.1. 合同变换

对于对称方阵 $A,B$ ，存在可逆矩阵 $C$ ，使得 $B=C^{T}AC$ ，则 $A,B$ 相合。合同变换本质上是对实对称矩阵的分类(上一章提到过，相似变换本质上是对方阵的分类)。

2.2. 惯性定理

对于一个n阶实对称矩阵 $A$ ，与它合同的实对称矩阵有多个，这些实对角矩阵的对角元中，正数的个数是一定的(叫A的正惯性指数)，负数的个数也是一定的(叫A的负惯性指数)。

证明略。

实际使用时，如果 $A$ 是对称方阵，用三角分解 $A=LDL^{T}$ 即可，因为 $A,D,\Lambda$ 三者相合。

2.3. 惯性定理的推论

任何一个实对称矩阵可以相合到由若干1，若干-1，若干0组成的对角矩阵，即由相合条件约束的某一类实对称矩阵均可相合到该对角矩阵。

证明：
对实对称矩阵 $A$ 进行分解 $A=Q\Lambda Q^{T}$ ，所以 $A$ 与 $\Lambda$ 相合，不妨设 $\Lambda$ 中 $\lambda_{1}\dots\lambda_{m}$ 是正特征根， $\lambda_{m+1}\dots\lambda_{i}$ 是负特征根， $\lambda_{i+1}\dots\lambda_{n}$ 是零特征根，则 $\begin{aligned} \Lambda & =\left [ \begin{matrix} \lambda_{1} &&&&&& \\ &\ddots &&&&& \\ &&\lambda_{m}&&&& \\ &&&\ddots &&& \\ &&&&\lambda_{i}&& \\ &&&&&\ddots& \\ &&&&&&\lambda_{n} \end{matrix} \right ] \\ & = \left [ \begin{matrix} \frac{1}{\sqrt{\lambda_{1}}} &&&&&& \\ &\ddots &&&&& \\ && \frac{1}{\sqrt{\lambda_{m}}}&&&& \\ &&&\ddots &&& \\ &&&& \frac{1}{\sqrt{-\lambda_{i}}}&& \\ &&&&&\ddots& \\ &&&&&&0 \end{matrix} \right ] \times \\ & \left [ \begin{matrix} 1 &&&&&& \\ &\ddots &&&&& \\ && 1&&&& \\ &&&\ddots &&& \\ &&&& -1&& \\ &&&&&\ddots& \\ &&&&&&0 \end{matrix} \right ] \times \left [ \begin{matrix} \frac{1}{\sqrt{\lambda_{1}}} &&&&&& \\ &\ddots &&&&& \\ && \frac{1}{\sqrt{\lambda_{m}}}&&&& \\ &&&\ddots &&& \\ &&&& \frac{1}{\sqrt{-\lambda_{i}}}&& \\ &&&&&\ddots& \\ &&&&&&0 \end{matrix} \right ] \\ & = C^{T}BC \end{aligned}$

故 $\Lambda$ 与 $B$ 相合，故 $A$ 与 $B$ 相合。证毕。

2.4. 惯性定理的应用

通过 $A-nI$ 限定实对称矩阵 $A$ 的特征根区间，例如： $A-3I$ 有2正特征根， $A-5I$ 只有1个正特征根，则 $A$ 有一个特征根在(3,5)之间。

这里用到了 $A-nI$ 的特征值，相对于 $A$ 的特征值也减去n的推论，证明如下：

$Ax=\lambda x, (A-3I)x = \lambda' x$

所以

$Ax = (\lambda'+3) x$

所以 $\lambda'=\lambda-3$

3. 奇异值分解

3.1. SVD

对矩阵 $A_{m\times n}$ ，其秩 $r=rank(A)$ ，则其奇异值分解(Singular Value Decomposition, SVD)表示为 $A=U\Sigma V=(正交矩阵)_{m\times m}(对角矩阵)_{m\times n}(正交矩阵)_{n\times n}$

其中 $U$ 的列向量由 $AA^{T}$ 的特征向量构成； $V$ 的列向量由 $A^{T}A$ 的特征向量构成； $\Sigma$ 的对角元素的前r个被称为奇异值，是 $AA^{T}$ 或者 $A^{T}A$ 的特征值平方根，其余元素为0。

证明依赖于谱定理，在有了求对称方阵特征根高效算法后，才有了SVD。

证明：
证明分六步进行

$A^{T}A$ 一定是对称方阵
又 $A^{T}Ax=\lambda x$ ，左乘上 $x^{T}$
$x^{T}A^{T}Ax = \lambda x^{T}x = (Ax)^{T}Ax \geq 0$
故 $\lambda \geq 0$
故 $A^{T}A$ 至少是半正定矩阵
由谱定理 $\begin{aligned} A^{T}A & = V \left [ \begin{matrix} \sigma_{1}^{2}&&&&& \\ &\ddots&&&& \\ &&\sigma_{r}^{2}&&& \\ &&&0&& \\ &&&&\ddots& \\ &&&&& 0 \end{matrix}\right ]V^{T} \\ & = [v_{1}, v_{2}\dots v_{n}] \left [ \begin{matrix} \sigma_{1}^{2}&&&&& \\ &\ddots&&&& \\ &&\sigma_{r}^{2}&&& \\ &&&0&& \\ &&&&\ddots& \\ &&&&& 0 \end{matrix}\right ] \left [ \begin{matrix} v_{1}^{T}\\ v_{2}^{T}\\ \vdots \\ v_{n}^{T}\ \end{matrix}\right ] \end{aligned}$
其中 $1\leq i \leq r$ 时， $\sigma_{i}>0$ ，当 $r < i \leq n$ 时， $\sigma_{i}=0$ 。
所以， $A^{T}Av_{i}=\sigma^{2}_{i}v_{i}, 0\leq i \leq r$
由于 $||Av_{i}||^{2}=(Av_{i})^{T}(Av_{i})=v_{i}^{T}A^{T}Av_{i}=v_{i}^{T}\sigma^{2}_{i}v_{i}=\sigma^{2}_{i}$
故 $||Av_{i}||=\sigma_{i}$
令 $u_{i}=\frac{Av_{i}}{\sigma_{i}},1\leq i \leq r$
则 $u_{i}$ 是 $A$ 的列空间的单位向量。对于 $i\neq j$ 有 $Av_{i}=u_{i}\sigma_{i} \\ Av_{j}=u_{j}\sigma_{j}$ 则 $(Av_{i})^{T}Av_{j}=\sigma_{i}\sigma_{j}u_{i}^{T}u_{j}$
左边 $=v^{T}_{i}A^{T}Av_{j}=v_{i}^{T}\sigma^{2}_{j}v_{j}=0=\sigma_{i}\sigma_{j}u_{i}^{T}u_{j}=$ 右边
由于 $\sigma_{i},\sigma_{j}\neq 0$ ，则 $u_{i}^{T}u_{j}=0$
故 $u_{1},u_{2}\dots u_{r}$ 相互正交，是 $A$ 的列空间的标准正交基。
扩充 $u_{1},u_{2}\dots u_{r}$ 到 $u_{1},u_{2}\dots u_{r},u_{r+1}\dots u_{m}$ 为 $R^{m}$ 的标准正交基，则
$u_{1},u_{2}\dots u_{r}$ 是 $A$ 列空间 $C(A)$ 的标准正交基；
$u_{r+1},u_{r+2}\dots u_{m}$ 是 $A$ 左零空间 $N(A^{T})$ 的标准正交基；
逐列来看
$1\leq i \leq r$ 时， $\sigma_{i}>0$ ， $Av_{i}=u_{i}\sigma_{i}$ ；
$r < i \leq n$ 时， $\sigma_{i}=0$ ， $Av_{i}=0=u_{i}·0$ 。
故 $AV=U\Sigma$ ，所以 $A=U\Sigma V^{T}$

3.2. SVD的本质

逐列来看 $AU=\Sigma V$ ， $1\leq i \leq r$ 时， $\sigma_{i}>0$ ， $Av_{i}=u_{i}\sigma_{i}$ ； $r < i \leq n$ 时， $\sigma_{i}=0$ ， $Av_{i}=0=u_{i}·0$ 。则
$u_{1},u_{2}\dots u_{r}$ 是 $A$ 列空间 $C(A)$ 的标准正交基；
$u_{r+1},u_{r+2}\dots u_{m}$ 是 $A$ 左零空间 $N(A^{T})$ 的标准正交基；
$v_{r+1},v_{r+2}\dots v_{n}$ 是 $A$ 零空间 $N(A)$ 的标准正交基；
$v_{1},v_{2}\dots v_{r}$ 是 $A$ 行空间 $C(A^{T})$ 的标准正交基；

可见，SVD是 $C(A^{T})$ 到 $C(A)$ 的极简极优美映射，当 $1\leq i \leq r$
$A[v_{1}\dots v_{r}]=[u_{1}\dots u_{r}]\left [ \begin{matrix} \sigma_{1}&& \\ &\ddots& \\ &&\sigma_{r} \end{matrix}\right ]$ 即两个子空间标准正交基的极简极优美变换。

3.3. 求SVD

求 $A^{T}A$ 的 $\sigma, v$ ，注意实对称矩阵属于不同特征根的特征向量正交；
由 $Av_{i}=u_{i}\sigma_{i}$ 求出 $u_{i}$ ；
有Gram-Schmidt求 $u_{r+1}\dots u_{m}$ 。

可见SVD的结果严重不唯一，但是奇异值是唯一的。

3.4. SVD的应用-伪逆

求解线性方程组 $A_{m\times n}x=b$

当 $b$ 在 $C(A)$ ，由第二章，利用高斯消去法，解方程，就和我们解多元一次方程组一样；
当 $b$ 不再 $C(A)$ ，且 $A$ 列满秩，则 $R^{n}$ 就是 $C(A^{T})$ ，利用第三章的最小二乘法，把 $b$ 向 $C(A)$ 投影，在把这个投影点反向映射到 $C(A^{T})$ ，得到误差最小的解；
$A^{T}(A\widehat{x}-b)=0 \Longrightarrow \widehat{x}=(A^{T}A)^{-1}A^{T}b$
当 $b$ 不再 $C(A)$ ，且A列不满秩， $dim(R^{n})=dim(C(A^{T}))+dim(N(A))$ ， $R^{n}$ 相对于 $C(A^{T})$ 与 $N(A)$ 是更高维，把 $b$ 向 $C(A)$ 投影，在把这个投影点反映射到 $C(A^{T})$ 得到反向映射点，这个反向映射点加上 $N(A)$ 中任意一个点都是误差最小解，此时最小二乘法得到的误差最小解不唯一，我们可以利用伪逆求得最短最简单的误差最小解，也就是反向映射点加上 $N(A)$ 中的全零点。

伪逆利用SVD定义，如果 $A=U\Sigma V^{T}$ ，则A的伪逆定义为 $A^{+}=V\Sigma^{+} U^{T}$
其中 $\Sigma^{+}$ 表示对 $\Sigma$ 进行转置后，奇异值取倒数。

则 $Ax=b$ 的最短最简单误差最小解就是 $x^{+}=A^{+}b$ $A^{+}b$ 的意义是把 $b$ 投影到 $C(A)$ 中，在映射到 $C(A^{T})$ 。

下面是伪逆求解最短最简单的误差最小解的证明。

先证明 $A$ 是对角阵的情况，以 $A_{3\times 4}, r(A)=2$ 为例，求最短最简单的误差最小解 $\widehat{x}$
当 $b\in C(A)$ 有
$\left [ \begin{matrix} \sigma_{1} & 0 & 0 & 0 \\ 0 & \sigma_{2} & 0 & 0 \\ 0 & 0 & 0 & 0 \end{matrix}\right ] \left [ \begin{matrix} \widehat{x}_{1} \\ \widehat{x}_{2} \\ \widehat{x}_{3} \\ \widehat{x}_{4} \end{matrix}\right ] =\left [ \begin{matrix} b_{1} \\ b_{2} \\ 0 \end{matrix}\right ]$ 则 $\widehat{x}_{1}=\frac{b_{1}}{\sigma_{1}}$ ， $\widehat{x}_{2}=\frac{b_{2}}{\sigma_{2}}$
定义伪逆
$A^{+}=\left [ \begin{matrix} \frac{1}{\sigma_{1}} & 0 & 0 \\ 0 & \frac{1}{\sigma_{2}} & 0 \\ 0 & 0 & 0 \\ 0 & 0 & 0 \end{matrix}\right ]$
则 $\widehat{x}=A^{+}\left [ \begin{matrix} b_{1} \\ b_{2} \\ 0 \end{matrix}\right ]$ 得到最短最简单的误差最小解。
当 $b\notin C(A)$ 时， $b=\left [ \begin{matrix} b_{1} \\ b_{2} \\ b_{3} \end{matrix}\right]$ ，仍按照上面的伪逆，仍然可以求得最短解，同时也是误差最小的解 $\widehat{x}=A^{+}\left [ \begin{matrix} b_{1} \\ b_{2} \\ b_{3} \end{matrix}\right ]=\left [ \begin{matrix} \frac{b_{1}}{\sigma_{1}} \\ \frac{b_{2}}{\sigma_{2}} \\ 0 \\ 0 \end{matrix}\right ]$
如果A不是对角阵，则我们可以化成对角阵的形式，回到我们的根本目的，利用最小二乘法的想法求误差最小解，最小化 $||Ax-b||$ ，则 $\begin{aligned} ||Ax-b|| & =||U\Sigma V^{T}x-b|| \\ & = ||U(\Sigma V^{T}x-U^{T}b)|| \\ & = ||\Sigma V^{T}x-U^{T}b|| \end{aligned}$ 最后一个等号转换用到了，正交变换不改变长度的性质。令 $y=V^{T}x$ ，则 $x=Vy$ ，进一步化简 $\begin{aligned} ||Ax-b|| & = ||\Sigma V^{T}x-U^{T}b|| \\ & = ||\Sigma y-U^{T}b|| \end{aligned}$ 此时 $\Sigma$ 是对角矩阵，回到了情况1，我们得到 $y$ 的最短最简单的误差最小解是 $y^{+}=\Sigma^{+}U^{T}b$ 由于 $x=Vy$ 同样是正交变换，不改变长度，进而得到 $x$ 的最短最简单的误差最小解是 $x^{+}=Vy^{+}=V\Sigma^{+}U^{T}b$ 证毕。

值得一提的是， $AA^{+}$ 与 $A^{+}A$ 均可看成投影矩阵， $AA^{+}b$ 把 $b$ 向 $C(A)$ 投影， $A^{+}Aa$ 把 $a$ 向 $C(A^{T})$ 投影。

线性代数及其应用：第六章正定矩阵与奇异值分解

文章目录

正定矩阵

1. 正定矩阵

1.1. 实对称矩阵是正定矩阵的充要条件

1.2. 实对称矩阵是半正定矩阵的充要条件

1.3. 实对称矩阵与正定矩阵的分解

2. 惯性定理

2.1. 合同变换

2.2. 惯性定理

2.3. 惯性定理的推论

2.4. 惯性定理的应用

3. 奇异值分解

3.1. SVD

3.2. SVD的本质

3.3. 求SVD

3.4. SVD的应用-伪逆

線性代數及其應用：第五章特徵值與特徵向量

強化學習：Q-learning與DQN（Deep Q Network）

NLP：語言模型、中文自然語言處理流程、自然語言處理的任務

線性代數及其應用：第六章正定矩陣與奇異值分解

GradNorm：Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks，梯度歸一化

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

线性代数及其应用：第六章 正定矩阵与奇异值分解

文章目录

正定矩阵

1. 正定矩阵

1.1. 实对称矩阵是正定矩阵的充要条件

1.2. 实对称矩阵是半正定矩阵的充要条件

1.3. 实对称矩阵与正定矩阵的分解

2. 惯性定理

2.1. 合同变换

2.2. 惯性定理

2.3. 惯性定理的推论

2.4. 惯性定理的应用

3. 奇异值分解

3.1. SVD

3.2. SVD的本质

3.3. 求SVD

3.4. SVD的应用-伪逆

线性代数及其应用：第六章正定矩阵与奇异值分解