文章目錄

前言：這篇blog是《Linear Algebra and Its Applications》第六章的一些學習筆記。

正定矩陣

這一章要用到對實對稱矩陣 $A$ 的三角分解 $A=LDL^{T}$ ，以及譜定理 $A=Q\Lambda Q^{T}$

1. 正定矩陣

對任意非零實向量 $x$ ，有 $x^{T}Ax>0$ ，則 $A$ 爲正定矩陣。

在線性代數中，正定矩陣是對稱矩陣，因爲來自二次型；對任一二次型，總可以寫成對稱矩陣的形式，即 $f(x_{1}, x_{2}\dots x_{n})=x^{T}Ax=\sum\limits_{i=1}^{n}\sum\limits_{j=1}^{n}a_{ij}x_{i}x_{j}$

如果 $A$ 是正定矩陣，則 $x^{T}Ax$ 表示的二次型有最小值，不存在鞍點。

但在矩陣論中，正定矩陣不一定是對稱矩陣，例如 $\left [ \begin{matrix} 1 & -1 \\ 1 & 0\end{matrix}\right ]$

1.1. 實對稱矩陣是正定矩陣的充要條件

判斷實對稱矩陣 $A$ 是否爲正定矩陣，有5個充要條件，只要滿足其中一個即可。

$x^{T}Ax>0$ ，對所有非零實向量 $x$ 均成立；
$A$ 的所有特徵值 $\lambda_{i}$ 滿足 $\lambda_{i}>0$ ；
所有順序主子式 $A_{k}$ 是正的；
所有主元(piovts)大於0(最快捷條件)；
$A$ 能分解成 $R^{T}R$ ，其中R的列向量相互獨立。

證明：

條件1：定義，證畢。

條件2 $\Longleftrightarrow$ 條件1：對 $A$ 進行分解， $A=Q\Lambda Q^{T}$ ，有 $x^{T}Ax=x^{T}Q\Lambda Q^{T}x$ ，令 $x^{T}Q=y^{T}$ ，則 $x^{T}Ax=y^{T}\Lambda y=\sum\limits_{i=1}^{n}\lambda_{i}y_{i}^{2}$ ，根據條件1，如果實對稱矩陣 $A$ 是正定矩陣，則任意非零向量 $x$ ， $x^{T}Ax$ 恆大於0，所以 $\sum\limits_{i=1}^{n}\lambda_{i}y_{i}^{2}$ 恆大於0，所以 $\lambda_{i}>0$ ，證畢。

條件1和2 $\Longrightarrow$ 條件3：對於實對稱矩陣 $A$ ，以證明 $A_{3}$ 爲例，令 $x=[x_{1}, x_{2},x_{3},0,0,0,\dots]^{T}$ ，則 $x^{T}Ax$ 等價於 $[x_{1},x_{2},x_{3}]\left [ \begin{matrix} a_{11} & a_{12} & a_{13} \\ a_{21} & a_{22} & a_{23} \\ a_{31} & a_{32} & a_{33} \end{matrix} \right ]\left [ \begin{matrix} x_{1} \\ x_{2} \\ x_{3}\end{matrix} \right ]\tag{1}$

根據條件1，如果實對稱矩陣 $A$ 是正定矩陣，則 $x^{T}Ax>0$ ，所以(1)的中間矩陣也應該是正定矩陣，根據條件2，(1)的中間矩陣的所有特徵值大於0，所以 $A_{3}=(1)的中間矩陣的所有特徵值乘積>0$ 證畢。方陣的行列式等於所有特徵值乘積，在第五章特徵值與特徵向量中推導過這一結論。

條件3 $\Longrightarrow$ 條件4：以 $d_{3}$ 爲例， $d_{3}=\frac{A_{3}}{A_{2}}>0$ ，證畢。關於求 $d_{3}$ 用的表達式，在第四章行列式中推導過。

條件4 $\Longrightarrow$ 條件1，對 $A$ 進行三角分解 $A=LDL^{T}$ ，則 $x^{T}Ax=x^{T}LDL^{T}x$ ，令 $y=L^{T}x$ ，則 $x^{T}Ax=y^{T}Dy$ ，對角矩陣 $D$ 存的是 $A$ 的主元(pivots)，所以 $y^{T}Dy=\sum\limits_{i=1}^{n}d_{i}y_{i}^{2}>0$ 可以推出 $x^{T}Ax>0$

至此，條件1-4相互均可以推導。

條件5 $\Longleftrightarrow$ 條件4： $A=LDL^{T}=(L\sqrt{D})(\sqrt{D}L^{T})=R^{T}R$ ，其中 $R=\sqrt{D}L^{T}$ ；或者條件5 $\Longleftrightarrow$ 條件2： $A=Q\Lambda Q^{T}=(Q\sqrt{\Lambda})(\sqrt{\Lambda}Q^{T})=R^{T}R$ ，其中 $R=\sqrt{\Lambda}Q^{T}$

1.2. 實對稱矩陣是半正定矩陣的充要條件

半正定矩陣就是對任意非零實向量 $x$ ，有 $x^{T}Ax\geq0$ ，相對正定矩陣多了等於0；相應的充要條件也加上了等號。

$x^{T}Ax\geq0$ ，對所有非零實向量；
$A$ 的所有特徵值 $\lambda_{i}$ 滿足 $\lambda_{i}\geq0$ ；
所有順序主子式 $A_{k}$ 是 $\geq 0$ 的；
所有主元 $piovts \geq 0$ (最快捷條件)；
$A$ 能分解成 $R^{T}R$ ，其中R的列向量相互獨立。

證明：考慮 $A+\varepsilon I$ 正定，當 $\varepsilon > 0$ 。

1.3. 實對稱矩陣與正定矩陣的分解

實對稱矩陣不一定可以三角分解 $A=LDL^{T}$ ，但可以 $A=Q\Lambda Q^{T}$ 分解，正定矩陣兩種分解都可以。

$A=LDL^{T}$ 與 $A=Q\Lambda Q^{T}$ 本質上都是二次型配方。

2. 慣性定理

2.1. 合同變換

對於對稱方陣 $A,B$ ，存在可逆矩陣 $C$ ，使得 $B=C^{T}AC$ ，則 $A,B$ 相合。合同變換本質上是對實對稱矩陣的分類(上一章提到過，相似變換本質上是對方陣的分類)。

2.2. 慣性定理

對於一個n階實對稱矩陣 $A$ ，與它合同的實對稱矩陣有多個，這些實對角矩陣的對角元中，正數的個數是一定的(叫A的正慣性指數)，負數的個數也是一定的(叫A的負慣性指數)。

證明略。

實際使用時，如果 $A$ 是對稱方陣，用三角分解 $A=LDL^{T}$ 即可，因爲 $A,D,\Lambda$ 三者相合。

2.3. 慣性定理的推論

任何一個實對稱矩陣可以相合到由若干1，若干-1，若干0組成的對角矩陣，即由相合條件約束的某一類實對稱矩陣均可相合到該對角矩陣。

證明：
對實對稱矩陣 $A$ 進行分解 $A=Q\Lambda Q^{T}$ ，所以 $A$ 與 $\Lambda$ 相合，不妨設 $\Lambda$ 中 $\lambda_{1}\dots\lambda_{m}$ 是正特徵根， $\lambda_{m+1}\dots\lambda_{i}$ 是負特徵根， $\lambda_{i+1}\dots\lambda_{n}$ 是零特徵根，則 $\begin{aligned} \Lambda & =\left [ \begin{matrix} \lambda_{1} &&&&&& \\ &\ddots &&&&& \\ &&\lambda_{m}&&&& \\ &&&\ddots &&& \\ &&&&\lambda_{i}&& \\ &&&&&\ddots& \\ &&&&&&\lambda_{n} \end{matrix} \right ] \\ & = \left [ \begin{matrix} \frac{1}{\sqrt{\lambda_{1}}} &&&&&& \\ &\ddots &&&&& \\ && \frac{1}{\sqrt{\lambda_{m}}}&&&& \\ &&&\ddots &&& \\ &&&& \frac{1}{\sqrt{-\lambda_{i}}}&& \\ &&&&&\ddots& \\ &&&&&&0 \end{matrix} \right ] \times \\ & \left [ \begin{matrix} 1 &&&&&& \\ &\ddots &&&&& \\ && 1&&&& \\ &&&\ddots &&& \\ &&&& -1&& \\ &&&&&\ddots& \\ &&&&&&0 \end{matrix} \right ] \times \left [ \begin{matrix} \frac{1}{\sqrt{\lambda_{1}}} &&&&&& \\ &\ddots &&&&& \\ && \frac{1}{\sqrt{\lambda_{m}}}&&&& \\ &&&\ddots &&& \\ &&&& \frac{1}{\sqrt{-\lambda_{i}}}&& \\ &&&&&\ddots& \\ &&&&&&0 \end{matrix} \right ] \\ & = C^{T}BC \end{aligned}$

故 $\Lambda$ 與 $B$ 相合，故 $A$ 與 $B$ 相合。證畢。

2.4. 慣性定理的應用

通過 $A-nI$ 限定實對稱矩陣 $A$ 的特徵根區間，例如： $A-3I$ 有2正特徵根， $A-5I$ 只有1個正特徵根，則 $A$ 有一個特徵根在(3,5)之間。

這裏用到了 $A-nI$ 的特徵值，相對於 $A$ 的特徵值也減去n的推論，證明如下：

$Ax=\lambda x, (A-3I)x = \lambda' x$

所以

$Ax = (\lambda'+3) x$

所以 $\lambda'=\lambda-3$

3. 奇異值分解

3.1. SVD

對矩陣 $A_{m\times n}$ ，其秩 $r=rank(A)$ ，則其奇異值分解(Singular Value Decomposition, SVD)表示爲 $A=U\Sigma V=(正交矩陣)_{m\times m}(對角矩陣)_{m\times n}(正交矩陣)_{n\times n}$

其中 $U$ 的列向量由 $AA^{T}$ 的特徵向量構成； $V$ 的列向量由 $A^{T}A$ 的特徵向量構成； $\Sigma$ 的對角元素的前r個被稱爲奇異值，是 $AA^{T}$ 或者 $A^{T}A$ 的特徵值平方根，其餘元素爲0。

證明依賴於譜定理，在有了求對稱方陣特徵根高效算法後，纔有了SVD。

證明：
證明分六步進行

$A^{T}A$ 一定是對稱方陣
又 $A^{T}Ax=\lambda x$ ，左乘上 $x^{T}$
$x^{T}A^{T}Ax = \lambda x^{T}x = (Ax)^{T}Ax \geq 0$
故 $\lambda \geq 0$
故 $A^{T}A$ 至少是半正定矩陣
由譜定理 $\begin{aligned} A^{T}A & = V \left [ \begin{matrix} \sigma_{1}^{2}&&&&& \\ &\ddots&&&& \\ &&\sigma_{r}^{2}&&& \\ &&&0&& \\ &&&&\ddots& \\ &&&&& 0 \end{matrix}\right ]V^{T} \\ & = [v_{1}, v_{2}\dots v_{n}] \left [ \begin{matrix} \sigma_{1}^{2}&&&&& \\ &\ddots&&&& \\ &&\sigma_{r}^{2}&&& \\ &&&0&& \\ &&&&\ddots& \\ &&&&& 0 \end{matrix}\right ] \left [ \begin{matrix} v_{1}^{T}\\ v_{2}^{T}\\ \vdots \\ v_{n}^{T}\ \end{matrix}\right ] \end{aligned}$
其中 $1\leq i \leq r$ 時， $\sigma_{i}>0$ ，當 $r < i \leq n$ 時， $\sigma_{i}=0$ 。
所以， $A^{T}Av_{i}=\sigma^{2}_{i}v_{i}, 0\leq i \leq r$
由於 $||Av_{i}||^{2}=(Av_{i})^{T}(Av_{i})=v_{i}^{T}A^{T}Av_{i}=v_{i}^{T}\sigma^{2}_{i}v_{i}=\sigma^{2}_{i}$
故 $||Av_{i}||=\sigma_{i}$
令 $u_{i}=\frac{Av_{i}}{\sigma_{i}},1\leq i \leq r$
則 $u_{i}$ 是 $A$ 的列空間的單位向量。對於 $i\neq j$ 有 $Av_{i}=u_{i}\sigma_{i} \\ Av_{j}=u_{j}\sigma_{j}$ 則 $(Av_{i})^{T}Av_{j}=\sigma_{i}\sigma_{j}u_{i}^{T}u_{j}$
左邊 $=v^{T}_{i}A^{T}Av_{j}=v_{i}^{T}\sigma^{2}_{j}v_{j}=0=\sigma_{i}\sigma_{j}u_{i}^{T}u_{j}=$ 右邊
由於 $\sigma_{i},\sigma_{j}\neq 0$ ，則 $u_{i}^{T}u_{j}=0$
故 $u_{1},u_{2}\dots u_{r}$ 相互正交，是 $A$ 的列空間的標準正交基。
擴充 $u_{1},u_{2}\dots u_{r}$ 到 $u_{1},u_{2}\dots u_{r},u_{r+1}\dots u_{m}$ 爲 $R^{m}$ 的標準正交基，則
$u_{1},u_{2}\dots u_{r}$ 是 $A$ 列空間 $C(A)$ 的標準正交基；
$u_{r+1},u_{r+2}\dots u_{m}$ 是 $A$ 左零空間 $N(A^{T})$ 的標準正交基；
逐列來看
$1\leq i \leq r$ 時， $\sigma_{i}>0$ ， $Av_{i}=u_{i}\sigma_{i}$ ；
$r < i \leq n$ 時， $\sigma_{i}=0$ ， $Av_{i}=0=u_{i}·0$ 。
故 $AV=U\Sigma$ ，所以 $A=U\Sigma V^{T}$

3.2. SVD的本質

逐列來看 $AU=\Sigma V$ ， $1\leq i \leq r$ 時， $\sigma_{i}>0$ ， $Av_{i}=u_{i}\sigma_{i}$ ； $r < i \leq n$ 時， $\sigma_{i}=0$ ， $Av_{i}=0=u_{i}·0$ 。則
$u_{1},u_{2}\dots u_{r}$ 是 $A$ 列空間 $C(A)$ 的標準正交基；
$u_{r+1},u_{r+2}\dots u_{m}$ 是 $A$ 左零空間 $N(A^{T})$ 的標準正交基；
$v_{r+1},v_{r+2}\dots v_{n}$ 是 $A$ 零空間 $N(A)$ 的標準正交基；
$v_{1},v_{2}\dots v_{r}$ 是 $A$ 行空間 $C(A^{T})$ 的標準正交基；

可見，SVD是 $C(A^{T})$ 到 $C(A)$ 的極簡極優美映射，當 $1\leq i \leq r$
$A[v_{1}\dots v_{r}]=[u_{1}\dots u_{r}]\left [ \begin{matrix} \sigma_{1}&& \\ &\ddots& \\ &&\sigma_{r} \end{matrix}\right ]$ 即兩個子空間標準正交基的極簡極優美變換。

3.3. 求SVD

求 $A^{T}A$ 的 $\sigma, v$ ，注意實對稱矩陣屬於不同特徵根的特徵向量正交；
由 $Av_{i}=u_{i}\sigma_{i}$ 求出 $u_{i}$ ；
有Gram-Schmidt求 $u_{r+1}\dots u_{m}$ 。

可見SVD的結果嚴重不唯一，但是奇異值是唯一的。

3.4. SVD的應用-僞逆

求解線性方程組 $A_{m\times n}x=b$

當 $b$ 在 $C(A)$ ，由第二章，利用高斯消去法，解方程，就和我們解多元一次方程組一樣；
當 $b$ 不再 $C(A)$ ，且 $A$ 列滿秩，則 $R^{n}$ 就是 $C(A^{T})$ ，利用第三章的最小二乘法，把 $b$ 向 $C(A)$ 投影，在把這個投影點反向映射到 $C(A^{T})$ ，得到誤差最小的解；
$A^{T}(A\widehat{x}-b)=0 \Longrightarrow \widehat{x}=(A^{T}A)^{-1}A^{T}b$
當 $b$ 不再 $C(A)$ ，且A列不滿秩， $dim(R^{n})=dim(C(A^{T}))+dim(N(A))$ ， $R^{n}$ 相對於 $C(A^{T})$ 與 $N(A)$ 是更高維，把 $b$ 向 $C(A)$ 投影，在把這個投影點反映射到 $C(A^{T})$ 得到反向映射點，這個反向映射點加上 $N(A)$ 中任意一個點都是誤差最小解，此時最小二乘法得到的誤差最小解不唯一，我們可以利用僞逆求得最短最簡單的誤差最小解，也就是反向映射點加上 $N(A)$ 中的全零點。

僞逆利用SVD定義，如果 $A=U\Sigma V^{T}$ ，則A的僞逆定義爲 $A^{+}=V\Sigma^{+} U^{T}$
其中 $\Sigma^{+}$ 表示對 $\Sigma$ 進行轉置後，奇異值取倒數。

則 $Ax=b$ 的最短最簡單誤差最小解就是 $x^{+}=A^{+}b$ $A^{+}b$ 的意義是把 $b$ 投影到 $C(A)$ 中，在映射到 $C(A^{T})$ 。

下面是僞逆求解最短最簡單的誤差最小解的證明。

先證明 $A$ 是對角陣的情況，以 $A_{3\times 4}, r(A)=2$ 爲例，求最短最簡單的誤差最小解 $\widehat{x}$
當 $b\in C(A)$ 有
$\left [ \begin{matrix} \sigma_{1} & 0 & 0 & 0 \\ 0 & \sigma_{2} & 0 & 0 \\ 0 & 0 & 0 & 0 \end{matrix}\right ] \left [ \begin{matrix} \widehat{x}_{1} \\ \widehat{x}_{2} \\ \widehat{x}_{3} \\ \widehat{x}_{4} \end{matrix}\right ] =\left [ \begin{matrix} b_{1} \\ b_{2} \\ 0 \end{matrix}\right ]$ 則 $\widehat{x}_{1}=\frac{b_{1}}{\sigma_{1}}$ ， $\widehat{x}_{2}=\frac{b_{2}}{\sigma_{2}}$
定義僞逆
$A^{+}=\left [ \begin{matrix} \frac{1}{\sigma_{1}} & 0 & 0 \\ 0 & \frac{1}{\sigma_{2}} & 0 \\ 0 & 0 & 0 \\ 0 & 0 & 0 \end{matrix}\right ]$
則 $\widehat{x}=A^{+}\left [ \begin{matrix} b_{1} \\ b_{2} \\ 0 \end{matrix}\right ]$ 得到最短最簡單的誤差最小解。
當 $b\notin C(A)$ 時， $b=\left [ \begin{matrix} b_{1} \\ b_{2} \\ b_{3} \end{matrix}\right]$ ，仍按照上面的僞逆，仍然可以求得最短解，同時也是誤差最小的解 $\widehat{x}=A^{+}\left [ \begin{matrix} b_{1} \\ b_{2} \\ b_{3} \end{matrix}\right ]=\left [ \begin{matrix} \frac{b_{1}}{\sigma_{1}} \\ \frac{b_{2}}{\sigma_{2}} \\ 0 \\ 0 \end{matrix}\right ]$
如果A不是對角陣，則我們可以化成對角陣的形式，回到我們的根本目的，利用最小二乘法的想法求誤差最小解，最小化 $||Ax-b||$ ，則 $\begin{aligned} ||Ax-b|| & =||U\Sigma V^{T}x-b|| \\ & = ||U(\Sigma V^{T}x-U^{T}b)|| \\ & = ||\Sigma V^{T}x-U^{T}b|| \end{aligned}$ 最後一個等號轉換用到了，正交變換不改變長度的性質。令 $y=V^{T}x$ ，則 $x=Vy$ ，進一步化簡 $\begin{aligned} ||Ax-b|| & = ||\Sigma V^{T}x-U^{T}b|| \\ & = ||\Sigma y-U^{T}b|| \end{aligned}$ 此時 $\Sigma$ 是對角矩陣，回到了情況1，我們得到 $y$ 的最短最簡單的誤差最小解是 $y^{+}=\Sigma^{+}U^{T}b$ 由於 $x=Vy$ 同樣是正交變換，不改變長度，進而得到 $x$ 的最短最簡單的誤差最小解是 $x^{+}=Vy^{+}=V\Sigma^{+}U^{T}b$ 證畢。

值得一提的是， $AA^{+}$ 與 $A^{+}A$ 均可看成投影矩陣， $AA^{+}b$ 把 $b$ 向 $C(A)$ 投影， $A^{+}Aa$ 把 $a$ 向 $C(A^{T})$ 投影。

線性代數及其應用：第六章正定矩陣與奇異值分解

文章目錄

正定矩陣

1. 正定矩陣

1.1. 實對稱矩陣是正定矩陣的充要條件

1.2. 實對稱矩陣是半正定矩陣的充要條件

1.3. 實對稱矩陣與正定矩陣的分解

2. 慣性定理

2.1. 合同變換

2.2. 慣性定理

2.3. 慣性定理的推論

2.4. 慣性定理的應用

3. 奇異值分解

3.1. SVD

3.2. SVD的本質

3.3. 求SVD

3.4. SVD的應用-僞逆

Python 爬蟲：Spring Boot 反爬蟲的成功案例

Java中止線程的方式

京東科技數字化營銷能力的演進與最佳實踐| 京東雲技術團隊

線性代數及其應用：第五章特徵值與特徵向量

強化學習：Q-learning與DQN（Deep Q Network）

NLP：語言模型、中文自然語言處理流程、自然語言處理的任務

線性代數及其應用：第六章正定矩陣與奇異值分解

GradNorm：Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks，梯度歸一化

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

線性代數及其應用：第六章 正定矩陣與奇異值分解

文章目錄

正定矩陣

1. 正定矩陣

1.1. 實對稱矩陣是正定矩陣的充要條件

1.2. 實對稱矩陣是半正定矩陣的充要條件

1.3. 實對稱矩陣與正定矩陣的分解

2. 慣性定理

2.1. 合同變換

2.2. 慣性定理

2.3. 慣性定理的推論

2.4. 慣性定理的應用

3. 奇異值分解

3.1. SVD

3.2. SVD的本質

3.3. 求SVD

3.4. SVD的應用-僞逆

線性代數及其應用：第六章正定矩陣與奇異值分解