矩陣論（五）：矩陣的正定性

矩陣論專欄：專欄（文章按照順序排序）

矩陣的正定性是矩陣理論的基礎，在機器學習的很多算法中都有它的身影。正定矩陣是很基礎的工具，當涉及到諸如協方差矩陣、海森矩陣、不等式時就可能會用到正定性。另外，控制理論、凸優化理論等有線性矩陣不等式的重要應用。研究矩陣正定性用特徵值分解（譜分解）比較方便、自然，本文利用特徵值分解探討正定性的常用結論，並在個人能力範圍內儘量做到全面、清晰。文中如有錯誤，歡迎留言更正。

參考資料：
線性代數基礎知識系列：1、2、3、4、5
矩陣分解—從Schur分解、特徵值分解EVD到奇異值分解SVD（下）
矩陣論（補充知識）：特徵多項式的展開式

定理比較多，個人認爲比較重要的結論/定理，都用加粗字體標出。文中定理5和定理25使用了攝動法，有點類似於物理學中的微擾法。當我們研究的某個函數是連續函數時，如果想知道該函數在某一個具體點處的性質，只要給自變量一個微小增量，在該點的“附近”論證性質成立，然後取極限證明該點處性質仍成立。

本文只研究Hermite矩陣/實對稱矩陣的正定性。

矩陣的正定性及其性質
- 實正定矩陣
- 一些概念補充（合同、共軛相合、主子式、順序主子式）
- 正定、半正定、負定、半負定的定義
- 判別矩陣正定性的充要條件
- 其他常用的性質
矩陣的算數平方根
- 存在性與唯一性
- 推廣：矩陣的有理數次冪
矩陣不等式
- 定義與理解
- 基本性質
- 其他常用性質
- 常用的矩陣不等式舉例
  - Hermite矩陣的一個不等式
  - 分塊矩陣的Schur補定理
矩陣不等式的一個應用：瑞利商與廣義瑞利商

矩陣的正定性及其性質

複習實正定矩陣

定義：稱關於n個變量 $x_1,x_2,...,x_n\in R$ 的二次齊次實係數多項式函數 $f(x_1,x_2,...,x_n)=\sum_{i=1}^n\sum_{j=1}^na_{ij}x_ix_j,a_{ij}=a_{ji}$ 爲一個n元實二次型
定義：設有n元實二次型 $f(x_1,x_2,...,x_n)=\sum_{i=1}^n\sum_{j=1}^na_{ij}x_ix_j,a_{ij}=a_{ji}$ ，令 $x=(x_1,x_2,...,x_n)^T$ ， $A=(a_{ij})_{n\times n}$ ，則該實二次型可被寫成 $f(x)=x^TAx$ ，稱實對稱矩陣A爲二次型 $f(x)$ 的矩陣，A的秩爲二次型 $f(x)$ 的秩
定義：設 $f(x)=x^TAx$ 是一個n元實二次型，若對 $\forall x\in R^n,x\neq 0$ 有 $f(x)>0$ ，則稱 $f$ 爲正定二次型，實對稱矩陣A爲正定矩陣

參照上面的定義，一個n階實對稱矩陣A和相應的二次型 $x^TAx$ 稱爲：
半正定的，若對 $\forall x\in R^n,x\neq 0$ 有 $x^TAx\geqslant 0$ ；
負定的，若對 $\forall x\in R^n,x\neq 0$ 有 $x^TAx<0$ ；
半負定的，若對 $\forall x\in R^n,x\neq 0$ 有 $x^TAx\leqslant 0$ ；
不定的，若 $x^TAx$ 既能取到正值也能取到負值。

實數域下正定矩陣的結論與複數域下正定矩陣的結論是一致的，下面直接討論複數域下的結論。

一些概念補充

合同：設A，B爲n階實矩陣，若存在n階可逆實矩陣P使得 $P^TAP=B$ ，則稱A與B合同（或A合同於B），記爲 $A\simeq B$ ，並稱A到 $P^TAP$ 的變換爲合同變換
共軛相合（也簡稱相合）：設 $A,B\in C^{n\times n}$ ，若存在 $P\in C^{n\times n}_n$ 使得 $P^HAP=B$ ，則稱A共軛相合於B，或A與B共軛相合

實數域下的合同可以看做是複數域下的共軛相合的特例。

主子式：設 $A=(a_{ij})_{n\times n}$ ， $1\leqslant i_1\lt i_2\lt \cdots \lt i_k\leqslant n$ ，稱 $A\begin{pmatrix}i_1&i_2&\cdots&i_k\\i_1&i_2&\cdots&i_k\end{pmatrix}=\begin{bmatrix}a_{i_1i_1}&a_{i_1i_2}&\cdots&a_{i_1i_k}\\a_{i_2i_1}&a_{i_2i_2}&\cdots&a_{i_2i_k}\\\cdots&\cdots&\cdots&\cdots\\a_{i_ki_1}&a_{i_ki_2}&\cdots&a_{i_ki_k}\end{bmatrix}$ 爲A的一個k階主子矩陣，其行列式爲A的k階主子式
【注】符號 $A\begin{pmatrix}i_1&i_2&\cdots&i_k\\i_1&i_2&\cdots&i_k\end{pmatrix}$ 大括號內的第一行是A的若干行指標（索引），第二行是A的若干列指標（索引），這個符號的整體意思就是取A的第 $i_1,i_2,\cdots,i_k$ 行，與相應的第 $i_1,i_2,\cdots,i_k$ 列，這些行和列交叉位置的元素按照原本的位置關係排列成的新矩陣。這個矩陣是A的子矩陣之一，因爲行指標和列指標相同，所以稱爲主子矩陣。
順序主子式：設 $A=(a_{ij})_{n\times n}$ ，稱主子矩陣 $A\begin{pmatrix}1&2&\cdots&k\\1&2&\cdots&k\end{pmatrix},k\leqslant n$ 的行列式爲A的k階順序主子式

正定、半正定、負定、半負定的定義

注意到對於一共軛對稱矩陣 $A\in C^{n\times n}$ 以及 $x\in C^n$ ， $(x^HAx)^H=x^HA^Hx=x^HAx$ ，即 $\overline{x^HAx}=x^HAx$ ，故 $x^HAx$ 是實數。因而實數域下正定性的概念可直接推廣到複數域上來（實數域下正定性是用 $x^TAx>0$ 定義的，那麼複數域下正定性用 $x^HAx>0$ 來定義）：

定義：稱關於n個變量 $x_1,x_2,...,x_n\in C$ 的二次齊次復係數多項式函數 $f(x_1,x_2,...,x_n)=\sum_{i=1}^n\sum_{j=1}^na_{ij}\overline{x_i}x_j$ ，滿足 $\overline{a_{ij}}=a_{ji}$ ，爲一個n元Hermite二次型
定義：設有n元二次型 $f(x_1,x_2,...,x_n)=\sum_{i=1}^n\sum_{j=1}^na_{ij}\overline{x_i}x_j,\overline{a_{ij}}=a_{ji}$ ，令 $x=(x_1,x_2,...,x_n)^T$ ， $A=(a_{ij})_{n\times n}$ ，則該二次型可被寫成 $f(x)=x^HAx$ ，稱Hermite矩陣A爲Hermite二次型 $f(x)$ 的矩陣，A的秩爲Hermite二次型 $f(x)$ 的秩
定義：設 $f(x)=x^HAx$ 是一個n元Hermite二次型，若對 $\forall x\in C^n,x\neq 0$ 有 $f(x)>0$ ，則稱 $f$ 爲正定Hermite二次型，Hermite矩陣A爲正定矩陣

參照上面的定義，一個n階共軛對稱矩陣A和相應的二次型 $x^HAx$ 稱爲：
半正定的，若對 $\forall x\in C^n,x\neq 0$ 有 $x^HAx\geqslant 0$ ；
負定的，若對 $\forall x\in C^n,x\neq 0$ 有 $x^HAx<0$ ；
半負定的，若對 $\forall x\in C^n,x\neq 0$ 有 $x^HAx\leqslant 0$ ；
不定的，若 $x^HAx$ 既能取到正值也能取到負值。

判別矩陣正定性的充要條件

對於正定矩陣和半正定矩陣的判定稍微有些差異，下面的結論將正定矩陣和半正定矩陣分開說明。因爲 $A$ 正定等價於 $-A$ 負定， $A$ 半正定等價於 $-A$ 半負定，所以（半）負定矩陣的等價條件可由相應的（半）正定矩陣的等價條件得到，本文略去。

以下均設 $A,B\in C^{n\times{n}}$ ，A,B均爲共軛對稱矩陣（Hermite矩陣）。

【特徵值判定】

定理1：A正定的充要條件爲A的特徵值都大於零
證明：
必要性：設 $Ax=\lambda x,x\neq 0$ ，即 $\lambda$ 是A的任意一個特徵值， $x$ 是對應的特徵向量，則 $x^HAx=x^H\lambda x=\lambda ||x||_2^2>0$ ，因爲 $||x||_2>0$ ，所以 $\lambda >0$ 。
充分性：設A的一個譜分解爲 $A=U\Sigma U^H$ ，其中 $U=\begin{bmatrix}u_1&u_2&\cdots&u_n\end{bmatrix}$ ， $\Sigma=diag(\lambda_1,\lambda_2,\cdots,\lambda_n)$ ，則 $\forall x\neq 0,U^Hx\neq 0,x^HAx=(U^Hx)^H\Sigma (U^Hx)=\sum_{i=1}^n\lambda_i|u_i^Hx|^2>0$ ，故A正定。
【推論】若A正定，根據A的行列式等於A的特徵值之積，有 $det(A)>0$ ，故A可逆
定理2：A半正定的充要條件爲A的特徵值都非負
證明：與上同理。

【順序主子式、主子式判定】

定理3：A正定的充要條件爲A的所有順序主子式都大於零
證明：
必要性：對任意 $0\neq x_k\in C^k$ ,有 $x=\begin{bmatrix}x_k\\0_{n-k}\end{bmatrix}\neq 0$ $,x^HAx=x_k^HA\begin{pmatrix}1&2&\cdots&k\\1&2&\cdots&k\end{pmatrix}x_k>0$ ，故 $A\begin{pmatrix}1&2&\cdots&k\\1&2&\cdots&k\end{pmatrix}$ 正定，其行列式大於零，即A的順序主子式大於零。
充分性：思路是從二次型着手，使用數學歸納法，對n進行歸納（n爲A的階數）。
當 $n=1$ 時，顯然結論成立。假定結論對n-1成立，現證明結論對n也成立：
設A的Hermite二次型爲 $f(x)=x^HAx=\sum_{i=1}^n \sum_{j=1}^na_{ij} \overline x_ix_j,0\neq x\in C^n$ ，由已知 $a_{ij}$ 與 $a_{ji}$ 互爲共軛，且 $a_{11}>0$ ，故可將 $f(x)$ 寫成如下形式： $f(x)=\frac{1}{a_{11}} \sum_{i=1}^n \overline a_{1i} \overline x_i \sum_{j=1}^na_{1j}x_j+\sum_{i=2}^n \sum_{j=2}^nb_{ij} \overline x_ix_j$ 其中 $b_{ij}=a_{ij}-\frac{1}{a_{11}} \overline a_{1i}a_{1j}$ ，滿足 $\overline b_{ij}=b_{ji}$ 。記 $g(x)=\frac{1}{a_{11}} \sum_{i=1}^n \overline a_{1i} \overline x_i \sum_{j=1}^na_{1j}x_j=\frac{1}{a_{11}}|\sum_{j=1}^na_{1j}x_j|^2\geqslant 0$ 。當 $x_1\neq 0$ 且 $x_2=x_3=...=x_n=0$ 時， $f(x)=g(x)=\frac{|a_{11}x_1|^2}{a_{11}}\gt 0$ 。如果能夠證明當 $x_2,x_3,...,x_n$ 不全爲零時，二次型 $f(x)-g(x)=\sum_{i=2}^n \sum_{j=2}^nb_{ij} \overline x_ix_j\gt 0$ ，此時就有 $f(x)=g(x)+(f(x)-g(x))\geqslant f(x)-g(x)>0$ 。這樣的話 $\forall x\neq 0$ ，都有 $f(x)>0$ ，於是結論便成立。
現在證明當 $x_2,x_3,...,x_n$ 不全爲零時， $f(x)-g(x)>0$ 。考慮對A的任意k階順序主子式進行如下變換：

由已知 $\Delta_k>0$ ， $a_{11}>0$ ，因此

也就是說，Hermite二次型 $\sum_{i=2}^n \sum_{j=2}^nb_{ij} \overline x_ix_j$ 的矩陣（是n-1階的）的任意順序主子式均爲正。由歸納假設知二次型 $\sum_{i=2}^n \sum_{j=2}^nb_{ij} \overline x_ix_j$ 是正定的，故當 $x_2,x_3,...,x_n$ 不全爲零時， $\sum_{i=2}^n \sum_{j=2}^nb_{ij} \overline x_ix_j>0$ 。得證。
定理4：A正定的充要條件爲A的所有主子式都大於零
證明：
必要性：設 $1\leqslant i_1\lt i_2\lt \cdots \lt i_k\leqslant n$ ， $\Pi = \{i_1,i_2,...,i_k\}$ ，對任意 $0\neq y\in C^k$ ，構造 $x\in C^n$ ，其分量 $x_j$ 滿足若 $j\notin \Pi$ ， $x_j=0$ ，若 $j\in \Pi$ ， $x_j=y_{d}$ ，其中 $j=i_d$ ， $1\leqslant d\leqslant k$ 。則 $x^HAx=y^HA\begin{pmatrix}i_1&i_2&\cdots&i_k\\i_1&i_2&\cdots&i_k\end{pmatrix}y>0$ ，故 $A\begin{pmatrix}i_1&i_2&\cdots&i_k\\i_1&i_2&\cdots&i_k\end{pmatrix}$ 正定，其行列式大於零，即A的主子式大於零。
充分性：A的所有主子式大於零，故A的所有順序主子式大於零，由定理3便知A正定。
定理5：A半正定的充要條件爲A的所有主子式都非負
證明：
必要性：與上同理。
充分性：使用攝動法。任取 $k=1,2,...,n$ ，設 $A_k=A\begin{pmatrix}1&2&\cdots&k\\1&2&\cdots&k\end{pmatrix}$ ，由已知 $A_k$ 的所有主子式非負（注意 $A_k$ 的主子式都是 $A$ 的主子式）。 $\forall t>0$ ， $det(tI+A_k)=t^k+p_1t^{k-1}+p_2t^{k-2}+...+p_{k-1}t+p_k$ ，其中係數 $p_i(i=1,2,...,k)$ 是 $A_k$ 的所有 $i$ 階主子式之和，有 $p_i\geqslant 0$ ，故 $det(tI+A_k)\geqslant t^k>0$ 。也就是說 $tI+A$ 的所有順序主子式大於零，於是根據定理3知道 $tI+A$ 正定。 $\forall 0\neq x\in C^n,x^H(tI+A)x>0$ ，令 $t\rightarrow 0^+$ 就有 $x^HAx\geqslant 0$ ，故A半正定。
【注1】A的全部順序主子式非負並不能保證A是半正定的，例如如下反例： $A=\begin{bmatrix}0&0&0&1\\0&0&1&0\\0&1&0&0\\1&0&0&0\end{bmatrix}$ 其各階順序主子式分別爲0，0，0，1，但存在 $x=(1,0,0,-1)^T$ ，有 $x^TAx=-2<0$ ，故A不是半正定的。
【注2】證明中用到了 $det(tI+A_k)$ 的展開式，展開式的證明可參考矩陣論（補充知識）：特徵多項式的展開式。

【從共軛相合的角度判定】

定理6：若A與B相合，則A正定等價於B正定
證明：
由相合的定義，存在可逆矩陣P使得 $B=P^HAP$ ，若A正定，則 $\forall x\neq 0, Px\neq 0,x^HBx=(Px)^HA(Px)>0$ ，故B正定。同理可證若B正定，則A正定。
定理7：若A與B相合，則A半正定等價於B半正定
證明：同上。
定理8：A正定的充要條件爲A與同階單位陣相合
證明：
必要性：設A的一個譜分解爲 $A=U\Sigma U^H,\Sigma=diag(\lambda_1,\lambda_2,\cdots,\lambda_n)$ ，則由A正定知 $\lambda_i>0,i=1,2,...,n$ 。設 $P=U\hat\Sigma^{-1}$ ，其中 $\hat\Sigma=diag(\sqrt{\lambda_1},\sqrt{\lambda_2},\cdots,\sqrt{\lambda_n})$ ，則P可逆，且 $A=(PP^H)^{-1}$ ， $P^HAP=I$ ，故A與同階單位陣I相合。
充分性：若A與同階單位陣I相合，則存在可逆矩陣P使得 $P^HAP=I$ ，即 $A=(P^{-1})^HP^{-1}$ ，對 $\forall x\neq 0$ ， $P^{-1}x\neq 0$ ， $x^HAx=(P^{-1}x)^H(P^{-1}x)=||P^{-1}x||_2^2>0$ ，故A正定。
定理9：A半正定的充要條件爲A與 $\begin{bmatrix}I_r&O\\O&O\end{bmatrix}$ 相合，其中 $r=r(A)$
證明：
必要性：設A的一個譜分解爲 $A=U\Sigma U^H,\Sigma=diag(\lambda_1,\lambda_2,\cdots,\lambda_r,0,\cdots,0)$ ， $\lambda_i>0,i=1,2,...,r$ 。設 $P=U\Lambda^{-1}$ ，其中 $\Lambda=diag(\sqrt{\lambda_1},\sqrt{\lambda_2},\cdots,\sqrt{\lambda_r},1,...,1)$ ，則P可逆，且 $A=(P^H)^{-1}\begin{bmatrix}I_r&O\\O&O\end{bmatrix}P^{-1}$ ， $P^HAP=\begin{bmatrix}I_r&O\\O&O\end{bmatrix}$ ，故A與 $\begin{bmatrix}I_r&O\\O&O\end{bmatrix}$ 相合。
充分性：若A與 $\begin{bmatrix}I_r&O\\O&O\end{bmatrix}$ 相合，則存在可逆矩陣P使得 $P^HAP=\begin{bmatrix}I_r&O\\O&O\end{bmatrix}$ ，即 $A=(P^{-1})^H\begin{bmatrix}I_r&O\\O&O\end{bmatrix}P^{-1}$ ，對 $\forall x\neq 0$ ， $P^{-1}x\neq 0$ ， $x^HAx=(P^{-1}x)^H\begin{bmatrix}I_r&O\\O&O\end{bmatrix}(P^{-1}x)=\sum_{i=1}^r|(P^{-1}x)_i|^2\geqslant 0$ ，其中 $(P^{-1}x)_i$ 表示向量 $P^{-1}x$ 的第 $i$ 個分量，故A半正定。

【其他充要條件】

定理10：A正定的充要條件爲存在同階可逆矩陣C使得 $A=C^HC$
證明：顯然這是定理8一個等價表述。
定理11：A半正定的充要條件爲存在秩爲 $r(A)$ 的同階方陣C，使得 $A=C^HC$ 成立
證明：
必要性：設A的一個譜分解爲 $A=U\Sigma U^H,\Sigma=diag(\lambda_1,\lambda_2,\cdots,\lambda_r,0,...,0),\lambda_i>0,i=1,2,...,r,r=r(A)$ 。設 $C=(U\hat\Sigma)^H$ ，其中 $\hat\Sigma=diag(\sqrt{\lambda_1},\sqrt{\lambda_2},\cdots,\sqrt{\lambda_r},0,..,0)$ ，則 $r(C)=r(A)$ ，且 $A=C^HC$ 。
充分性：若 $A=C^HC$ ，則 $\forall x\neq 0$ ， $x^HAx=(Cx)^H(Cx)=||Cx||_2^2\geqslant 0$ ，故A半正定。
定理12：A正定的充要條件爲存在列滿秩矩陣P使得 $A=P^HP$
必要性：與上同理。
充分性：若 $A=P^HP$ ，則 $\forall x\neq 0$ ，由P列滿秩知 $Px\neq 0$ （否則由P列滿秩知其左僞逆 $L=(P^HP)^{-1}P^H$ 存在， $Px=0\Rightarrow x=LPx=0$ ，矛盾）， $x^HAx=(Px)^H(Px)=||Px||_2^2\gt 0$ ，故A正定。
定理13：A半正定的充要條件爲存在秩爲 $r(A)$ 的矩陣P，使得 $A=P^HP$ 成立
證明：與上同理。
定理14：A正定的充要條件爲存在同階正定矩陣C使得 $A=C^2$
證明：
必要性：設A的一個譜分解爲 $A=U\Sigma U^H,\Sigma=diag(\lambda_1,\lambda_2,\cdots,\lambda_n)$ ，則由A正定知 $\lambda_i>0,i=1,2,...,n$ 。設 $C=U\hat\Sigma U^H$ ，其中 $\hat\Sigma=diag(\sqrt{\lambda_1},\sqrt{\lambda_2},\cdots,\sqrt{\lambda_n})$ ，則由C共軛對稱且特徵值都大於零知C是正定矩陣，且驗證可知 $A=C^2$ 成立。
充分性：若 $A=C^2$ ，由C正定知C可逆，故 $\forall x\neq 0$ ，有 $Cx\neq 0$ ， $x^HAx=x^HCCx=x^HC^HCx=||Cx||^2_2>0$ ，故A正定。
定理15：A半正定的充要條件爲存在同階半正定矩陣C使得 $A=C^2$
證明：與上同理。
定理16：A正定的充要條件爲存在同階可逆的Hermite矩陣C使得 $A=C^2$
證明：與上同理。
定理17：A半正定的充要條件爲存在同階Hermite矩陣C使得 $A=C^2$
證明：與上同理。

其他性質

以下均設 $A,B\in C^{n\times{n}}$ ，A,B均爲共軛對稱矩陣（Hermite矩陣）。

定理18：
（1）若A正定，則 $P^HAP$ 正定的充要條件爲P列滿秩
證明：
因A正定，根據定理10知存在可逆矩陣C使得 $A=C^HC$ 。
必要性：由 $P^HAP=(CP)^H(CP)$ 正定知 $(CP)^H(CP)$ 滿秩，而 $r(CP)=r((CP)^H(CP))$ ，所以 $CP$ 列滿秩，所以P列滿秩。
充分性：由P列滿秩知 $CP$ 列滿秩，故存在列滿秩矩陣 $CP$ 使得 $P^HAP=(CP)^H(CP)$ ，由定理12知 $P^HAP$ 正定。
（2）若A半正定，則 $P^HAP$ 半正定，其中矩陣P任取
證明：
因A半正定，根據定理11知存在方陣C使得 $A=C^HC$ ， $P^HAP=(CP)^H(CP)$ 。 $\forall x\in C^n,x^HP^HAPx=||CPx||_2^2\geqslant 0$ ，故 $P^HAP$ 半正定。
定理19：
（1）若A正定，則A的主對角元均爲正實數
證明：對 $i=1,2...,n$ ，取單位矩陣的第 $i$ 列 $e_i$ ，有 $e_i^HAe_i=a_{ii}>0$ 。
【注】實際上，A的主對角元都是A的主子式，故定理4蘊含了A的主對角元都大於零這一事實。
（2）若A半正定，則A的主對角元均爲非負實數
證明：與上同理。
定理20：（用定義驗證即可）
（1）若A正定，常數 $k\gt 0$ ，則 $kA$ 正定
（2）若A半正定，常數 $k\geqslant 0$ ，則 $kA$ 半正定
定理21：（用定義驗證即可）
（1）若A，B均正定，則 $A+B$ 正定
（2）若A正定，B半正定，則 $A+B$ 正定
（3）若A，B均半正定，則 $A+B$ 半正定
定理22：
（1）若A正定，則 $A^{-1}$ 也正定
證明：因爲A是Hermite的，所以 $A^{-1}$ 也是Hermite的。 $\forall x\neq 0$ ，有 $A^{-1}x\neq 0,x^HA^{-1}x=x^HA^{-1}AA^{-1}x=(A^{-1}x)^HA(A^{-1}x)>0$ ，故 $A^{-1}$ 正定。
（2）若A半正定，則 $A^+$ 也半正定，其中 $A^+$ 是 $A$ 的Penrose-Moore逆
證明：設A的一個譜分解爲 $A=U\Sigma U^H,\Sigma=diag(\lambda_1,\lambda_2,\cdots,\lambda_r,0,...,0),\lambda_i>0,i=1,2,...,r$ ，易驗證 $A^+=U\Sigma^+U^H$ ，其中 $\Sigma^+=diag(\lambda_1^{-1},\lambda_2^{-1},\cdots,\lambda_r^{-1},0,...,0)$ ，可見 $A^+$ 是特徵值均非負的Hermite矩陣，故 $A^+$ 半正定。
定理23：
（1） $A\in C^{n\times n}$ 、 $B\in C^{m\times m}$ 均正定的充要條件爲 $\begin{bmatrix}A&O\\O&B\end{bmatrix}$ 正定
證明：
必要性： $\begin{bmatrix}A&O\\O&B\end{bmatrix}$ 顯然Hermite。 $\forall 0\neq z\in C^{n+m},z=\begin{bmatrix}x\\y\end{bmatrix}$ ， $x\in C^n, y\in C^m$ ，則 $x,y$ 至少有一個不爲零，故 $z^H\begin{bmatrix}A&O\\O&B\end{bmatrix}z=x^HAx+y^HBy>0$ ，故 $\begin{bmatrix}A&O\\O&B\end{bmatrix}$ 正定。
充分性：設 $P=\begin{bmatrix}I\\O\end{bmatrix}$ ，顯然P列滿秩，於是由定理18知 $A=P^H\begin{bmatrix}A&O\\O&B\end{bmatrix}P$ 正定。同理，設 $Q=\begin{bmatrix}O\\I\end{bmatrix}$ ，Q列滿秩， $B=Q^H\begin{bmatrix}A&O\\O&B\end{bmatrix}Q$ 正定。
（2） $A\in C^{n\times n}$ 、 $B\in C^{m\times m}$ 均半正定的充要條件爲 $\begin{bmatrix}A&O\\O&B\end{bmatrix}$ 半正定
證明：
必要性： $\begin{bmatrix}A&O\\O&B\end{bmatrix}$ 顯然Hermite。 $z\in C^{n+m},z=\begin{bmatrix}x\\y\end{bmatrix}$ ， $x\in C^n, y\in C^m$ ， $z^H\begin{bmatrix}A&O\\O&B\end{bmatrix}z=x^HAx+y^HBy\geqslant 0$ ，故 $\begin{bmatrix}A&O\\O&B\end{bmatrix}$ 半正定。
充分性：設 $P=\begin{bmatrix}I\\O\end{bmatrix}$ ，故由定理18知 $A=P^H\begin{bmatrix}A&O\\O&B\end{bmatrix}P$ 半正定。同理，設 $Q=\begin{bmatrix}O\\I\end{bmatrix}$ ， $B=Q^H\begin{bmatrix}A&O\\O&B\end{bmatrix}Q$ 半正定。
定理24：
（1）設A爲一Hermite矩陣，存在 $t\in R$ ，使得 $\forall s>t$ 有 $sI+A$ 正定
證明：
因A共軛對稱，故可設A的一個譜分解爲 $A=U\Sigma U^H$ ， $\Sigma=diag(\lambda_1,\lambda_2,\cdots,\lambda_n),\lambda_i$ 均爲實數。 $tI+A=U(tI+\Sigma)U^H$ ，故只要取 $t=-min\{\lambda_1,\lambda_2,...,\lambda_n\}$ ， $\forall s>t$ ， $sI+A$ 的特徵值就都爲正，故 $sI+A$ 正定。
（2）若A半正定，則 $\forall s>0$ ， $sI+A$ 正定
證明：在（1）的證明中取 $t=0$ 即可。
定理25：
（1）若A，B均正定，且 $AB=BA$ ，則AB正定
證明：
由 $(AB)^H=(BA)^H=A^HB^H=AB$ 知 $AB$ 是共軛對稱的。
因A正定，由定理14知存在同階正定矩陣C使得 $A=C^2$ ， $C$ 可逆， $C^{-1}ABC=CBC$ ，即 $AB$ 與 $CBC$ 相似，故它們的特徵值相同。由 $CBC=C^HBC$ ，故 $CBC$ 與 $B$ 相合，由B正定及定理6知 $CBC$ 正定，故 $CBC$ 的特徵值均爲正，進而 $AB$ 的特徵值均爲正，故 $AB$ 正定。
（2）若A正定，B半正定，且 $AB=BA$ ，則AB半正定
證明：與上同理。
（3）若A，B均半正定，且 $AB=BA$ ，則AB半正定
證明：使用攝動法。
由 $(AB)^H=(BA)^H=A^HB^H=AB$ 知 $AB$ 是共軛對稱的。
$\forall t>0$ ， $tI+A$ 正定，又 $(tI+A)B=B(tI+A)$ ，故由（2）知 $(tI+A)B$ 半正定。故 $\forall x\in C^n,x^H(tI+A)Bx\geqslant 0$ ，即 $tx^HBx+x^HABx\geqslant 0,\forall t>0$ 。令 $t\rightarrow 0^+$ 就有 $x^HABx\geqslant 0$ 。注意到 $x$ 是任取的，故 $AB$ 半正定。

矩陣的算數平方根

存在性與唯一性

那天看到二次範數的概念：設 $P$ 正定， $||x||_P=||P^{-\frac{1}{2} }x||_2$ ，很好奇這個 $P^{-\frac{1}{2}}$ 是什麼。在網上查了下資料，其實與非負實數的算數平方根是類似的。設 $P^{-1}=Udiag(\lambda_1,\lambda_2,...,\lambda_n) U^H$ ，，則 $C=Udiag(\sqrt{\lambda_1},\sqrt{\lambda_2},...,\sqrt{\lambda_n}) U^H$ 滿足 $C^2=P^{-1}$ （定理14的結論）。問題在於滿足 $C^2=P^{-1}$ 的C是否是唯一的？如果C不唯一，顯然 $P^{-\frac{1}{2}}$ 這樣的表示是不合理的，因爲會產生歧義。事實上，C是唯一的，下面就來看看爲什麼：

定義：設有n階方陣A，若存在n階方陣B使得 $A=B^2$ ，則稱B是A的一個平方根
定義：設有n階半正定矩陣A，若存在n階半正定矩陣B使得 $A=B^2$ ，則稱B是A的一個算數平方根
引理：設n階共軛對稱矩陣A，B有相同的特徵值，且任取它們的一個特徵值 $\lambda$ ，A的特徵子空間 $N(\lambda I-A)$ 與B特徵子空間 $N(\lambda I-B)$ 相同，即 $N(\lambda I-A)=N(\lambda I-B)$ ，那麼 $A=B$ 成立。
證明：
設A的一個譜分解爲 $A=P\Sigma P^H$ ， $\Sigma=diag(\lambda_1,\lambda_2,...,\lambda_n)$ ， $P=\begin{bmatrix}p_1&p_2&\cdots&p_n\end{bmatrix}$ 。根據已知條件， $P$ 的任意一列 $p_i$ 也是 $B$ 對應於 $\lambda_i$ 的特徵向量。則 $\begin{aligned}P^HBP&=\begin{bmatrix}p_1^H\\p_2^H\\\cdots\\p_n^H\end{bmatrix}B\begin{bmatrix}p_1&p_2&\cdots&p_n\end{bmatrix}\\&=\begin{bmatrix}p_1^H\\p_2^H\\\cdots\\p_n^H\end{bmatrix}\begin{bmatrix}\lambda_1p_1&\lambda_2p_2&\cdots&\lambda_np_n\end{bmatrix}\\&=diag(\lambda_1,\lambda_2,...,\lambda_n)\end{aligned}$ 故 $B=P\Sigma P^H=A$ 。
定理26：任意半正定矩陣A有唯一的算數平方根
證明：
存在性根據定理14得到。現證明唯一性：
設有半正定矩陣B，C滿足 $A=B^2=C^2$ 。設B的譜分解爲 $B=P\Sigma P^H$ ，其中 $\Sigma=diag(\lambda_1,\lambda_2,...,\lambda_n),0\leqslant\lambda_1\leqslant \lambda_2\leqslant \cdots\leqslant \lambda_n$ 。則 $B^2=P\Sigma^2P^H=A$ ，這是A的一個譜分解，說明 $\forall i=1,2,...,n$ 有 $N(\lambda_i I-B)=N(\lambda^2_i I-A)$ 。同理，設C的譜分解爲 $C=Q\hat\Sigma Q^H$ ，其中 $\hat\Sigma=diag(\hat\lambda_1,\hat\lambda_2,...,\hat\lambda_n),0\leqslant\hat\lambda_1\leqslant \hat\lambda_2\leqslant \cdots\leqslant \hat\lambda_n$ 。則 $C^2=Q\hat\Sigma^2Q^H=A$ ，這是A的一個譜分解，說明 $\forall i=1,2,...,n$ 有 $N(\hat\lambda_i I-C)=N(\hat\lambda^2_i I-A)$ 。
注意到 $\Sigma^2$ 和 $\hat\Sigma^2$ 的主對角線上都是將A的特徵值從小到大排列，因此有 $\Sigma^2=\hat\Sigma^2$ ，故 $\forall i=1,2,...,n$ 有 $\lambda_i^2=\hat\lambda_i^2$ ，即 $\lambda_i=\hat\lambda_i$ （注意，半正定矩陣的特徵值非負）。結合前面的討論， $\forall i=1,2,...,n$ 有 $N(\lambda_i I-B)=N(\lambda^2_i I-A)=N(\hat\lambda^2_i I-A)=N(\hat\lambda_i I-C)$ ，於是根據引理的結論必有 $B=C$ 。

由算數平方根的存在性與唯一性，我們可以引入記號 $A^{\frac{1}{2}}$ （或 $\sqrt A$ ）表示半正定矩陣A的算數平方根。

推論：任意正定矩陣A有唯一的算數平方根 $A^{\frac{1}{2}}$ ，且 $A^{\frac{1}{2}}$ 是正定的

推廣：矩陣的有理數次冪

對上述結論稍作推廣，使用完全相同的證明方式就可以得到如下結論：

定理27：設有n階（半）正定矩陣 $A$ ，對任意正整數 $k$ ，存在唯一的（半）正定矩陣 $B$ 使得 $A=B^k$ ，記作 $B=A^{\frac{1}{k}}$

這說明半正定矩陣可以開任意正整數次方。再進一步，我們很容易據此定義出半正定矩陣的任意正有理數次方：設 $\alpha=\frac{p}{q}>0$ 爲有理數，其中 $p,q$ 爲互質正整數，則半正定矩陣 $A$ 的 $\alpha$ 次方 $A^\alpha$ 定義爲 $A^\alpha=(A^p)^\frac{1}{q}$ 。注意 $(A^\frac{1}{q})^{pq}=((A^\frac{1}{q})^q)^p=A^p$ ，兩邊同時開 $q$ 次方就有 $(A^\frac{1}{q})^p=(A^p)^\frac{1}{q}$ ，因此 $A^\alpha=(A^p)^\frac{1}{q}=(A^\frac{1}{q})^p$ 。
可以驗證半正定矩陣的正有理數次冪運算有如下運算律：（以下設 $A$ 和 $B$ 是同階半正定矩陣， $\alpha,\beta>0$ 是正有理數）

$A^{\alpha+\beta}=A^\alpha A^\beta$
$A^{\alpha\beta}=(A^{\alpha})^\beta=(A^\beta)^\alpha$
$(UAU^H)^\alpha=UA^\alpha U^H$ ，其中 $U$ 是與 $A$ 同階的酋矩陣

如果 $A$ 和 $B$ 可交換（即滿足 $AB=BA$ ），根據一些深入的分析可以知道 $A$ 和 $B$ 可以同時酋對角化（關於這一點可以參考Roger A Horn的《矩陣分析》），於是有如下運算律

$(AB)^\alpha=A^\alpha B^\alpha$
【注】這裏簡要地證明一下：設 $A,B$ 的譜分解爲 $A=U\Sigma_1U^H,B=U\Sigma_2 U^H$ ，則 $(AB)^\alpha=(U\Sigma_1\Sigma_2 U^H)^\alpha=U(\Sigma_1\Sigma_2)^\alpha U^H=U\Sigma_1^\alpha\Sigma_2^\alpha U^H=(U\Sigma_1^\alpha U^H)(U\Sigma_2^\alpha U^H)=(U\Sigma_1U^H)^\alpha(U\Sigma_2 U^H)^\alpha=A^\alpha B^\alpha$

如果 $A$ 正定，根據定理22知 $A^{-1}$ 也正定，於是可以推廣到正定矩陣的任意有理數次冪：

當有理數 $\alpha>0$ 時， $A^{-\alpha}=(A^{-1})^\alpha$

可見半正定矩陣的有理數次冪與實數的冪的性質十分相似。下面從另一個角度考慮Hermite矩陣與實數之間的關係。
實數之間是可以比大小的（實數集上的大小關係是一個全序關係），那我們自然要問，矩陣是否可以比大小？實際上，我們可以利用半正定矩陣可以定義出Hermite矩陣集合上的一個偏序關係，然而，這樣定義出來的偏序關係並不是全序關係。也就是說，Hermite矩陣之間不一定能比大小，但如果兩個Hermite矩陣可以比大小，那麼它們之間的關係就很像兩個實數之間的關係，就會有很多類似的性質。下面就介紹Hermite矩陣集上的這個偏序關係：線性矩陣不等式。

矩陣不等式

定義：設A,B爲同階共軛對稱矩陣（Hermite矩陣），若 $A-B$ 是正定的，則記 $A>B$ ；若 $A-B$ 是半正定的，則記 $A\geqslant B$
【注1】只要有 $>$ 和 $\geqslant$ 就夠了，不過也可以引入 $<$ 和 $\leqslant$
【注2】依照上面的定義，Hernite矩陣A正定就是 $A>O$ ，Hermite矩陣半正定就是 $A\geqslant O$
【注3】 $\geqslant$ 滿足自反性、反對稱性以及傳遞性（見下文），因此根據偏序關係的定義（參考鏈接）， $\geqslant$ 定義了Hermite矩陣集上的一個偏序關係。

以下均設A，B，C，D爲同階Hermite矩陣。
【注】類比實數比大小的性質，下面的性質就比較直觀了。

基本性質（以下只討論 $\geqslant$ ， $\gt$ 的討論是類似的）
- 自反性： $A\geqslant A$
  （這是因爲 $A-A=O$ 是半正定的）
- 反對稱性：若 $A\geqslant B$ 且 $B\geqslant A$ ，則 $A=B$
  證：
  由已知 $A-B$ 既半正定又半負定，它的任意特徵值既不小於零又不大於零，只能爲零。 $A-B$ 是Hermite矩陣，可作譜分解 $A-B=U\Sigma U^H$ ，對角陣 $\Sigma$ 對角線上全爲零，故 $A-B=O$ ， $A=B$ 。
- 傳遞性：若 $A\geqslant B$ ， $B\geqslant C$ ，則 $A\geqslant C$
  證：
  由已知 $A-B$ 和 $B-C$ 半正定，於是 $\forall x\neq 0$ 有 $x^H(A-B)x\geqslant 0$ 且 $x^H(B-C)x\geqslant 0$ ， $x^H(A-C)x=x^H(A-B)x+x^H(B-C)x\geqslant 0$ ，故 $A\geqslant C$ 。
- 線性性：若 $A\geqslant B$ ，實數 $k\geqslant 0$ ，則 $kA\geqslant kB$
- 可加性：若 $A\geqslant B$ ， $C\geqslant D$ ，則 $A+C\geqslant B+D$
  證明：
  由已知 $A-B,C-D$ 半正定，故 $(A+C)-(B+D)=(A-B)+(C-D)$ 半正定，即 $A+C\geqslant B+D$ 。
其他常用性質
- 定理28：
  （1）設 $P$ 列滿秩，則 $A>B\iff P^HAP>P^HBP$
  證明：根據定理18可得。
  （2）若 $A\geqslant B$ ，則任意矩陣P有 $P^HAP\geqslant P^HBP$
  證明：根據定理18可得。
  （3）設有可逆矩陣 $P$ ，則 $A>B(A\geqslant B)$ 的充要條件爲 $P^HAP>P^HBP(P^HAP\geqslant P^HBP)$
  證明：根據定理6和定理7可得。
- 定理29：
  （1）若 $A>B>O$ 且 $AB=BA$ ，則 $A^2>B^2$
  證明：
  因 $AB=BA$ ，故 $A^2-B^2=(A-B)(A+B)=(A+B)(A-B)$ 。由 $A>B>O$ 得 $A-B>O,A+B>O$ ，根據定理25知 $A^2-B^2=(A-B)(A+B)>O$ 。
  （2）若 $A\geqslant B>O$ 且 $AB=BA$ ，則 $A^2\geqslant B^2$ 。
  證明：
  因 $AB=BA$ ，故 $A^2-B^2=(A-B)(A+B)=(A+B)(A-B)$ 。由 $A\geqslant B>O$ 得 $A-B\geqslant O,A+B>O$ ，根據定理25知 $A^2-B^2=(A-B)(A+B)\geqslant O$ 。
  （3）若 $A>B\geqslant O$ 且 $AB=BA$ ，則 $A^2\geqslant B^2$
  證明：與上同理。
  （4）若 $A\geqslant B\geqslant O$ 且 $AB=BA$ ，則 $A^2\geqslant B^2$
  證明：與上同理。
- 引理：若 $B>O$ ，則存在可逆矩陣 $P$ 使得 $P^HBP=I,P^HAP=\Sigma$ ，其中 $\Sigma$ 爲對角陣
  證明：
  由定理8知，存在可逆矩陣 $C$ 使得 $C^HBC=I$ 。考慮Hermite矩陣 $C^HAC$ 的一個譜分解 $C^HAC=Q\Sigma Q^H$ ，令 $P=CQ$ ，則有 $P^HBP=Q^H(C^HBC)Q=I,P^HAP=Q^H(C^HAC)Q=\Sigma$ 。得證。
  【注】 $\Sigma$ 的對角元實際上是廣義特徵值問題 $Ax=\lambda Bx$ 的特徵值。廣義特徵值這裏不做介紹，感興趣的讀者可參考維基百科。
- 定理30：
  （1）若 $A>B>O$ ，則 $B^{-1}>A^{-1}$
  證明：
  由引理知，存在一可逆矩陣 $R$ 使得 $R^HAR=\Sigma,R^HBR=I$ ，其中 $\Sigma=diag(\lambda_1,\lambda_2,...,\lambda_n)$ 。
  由 $A>B$ 以及定理28知， $R^H(A-B)R=\Sigma -I>O$ 。對角矩陣 $\Sigma -I$ 的主對角元爲正，故 $\lambda_i >1,i=1,2,...,n$ ， $1-\lambda_i^{-1}>0$ ，進而 $I-\Sigma^{-1}>O$ ， $R(I-\Sigma^{-1})R^H=B^{-1}-A^{-1}>O$ ，即 $B^{-1}>A^{-1}$ 。
  （2）若 $A\geqslant B>O$ ，則 $B^{-1}\geqslant A^{-1}$
  證明：與上同理。
- 定理31：若 $A\geqslant O,B>O$ ， $\rho(\bullet)$ 表示譜半徑，則
  （1） $B>A$ 的充要條件爲 $\rho(AB^{-1})<1$
  （2） $B\geqslant A$ 的充要條件爲 $\rho(AB^{-1})\leqslant 1$
  證明：只證（1），（2）的證明是同理的。
  由引理知，存在一可逆矩陣 $R$ 使得 $R^HAR=\Sigma,R^HBR=I$ ，其中 $\Sigma=diag(\lambda_1,\lambda_2,...,\lambda_n)$ 。
  由定理28知 $B>A\iff R^HBR>R^HAR\iff I>\Sigma\iff\rho(\Sigma)<1$ 。計算可得 $AB^{-1}=(R^H)^{-1}\Sigma R^H$ ，即 $AB^{-1}$ 與 $\Sigma$ 相似，有 $\rho(AB^{-1})=\rho(\Sigma)$ ，故 $B>A\iff\rho(AB^{-1})<1$ 。

常用的矩陣不等式舉例

Hermite矩陣的一個不等式

定理32：對任意n階Hermite矩陣 $A$ ，有如下矩陣不等式成立： $\lambda_{min}I\leqslant A\leqslant\lambda_{max}I$ 其中， $\lambda_{min}$ 和 $\lambda_{max}$ 分別是 $A$ 的最小特徵值和最大特徵值
證明：
對 $A$ 作譜分解得 $A=U\Sigma U^H$ ，其中 $\Sigma=diag(\lambda_1,\lambda_2,...,\lambda_n)$ 。注意到Hermite矩陣 $A-\lambda_{min}I=U\Sigma U^H-\lambda_{min}I=U(\Sigma -\lambda_{min}I)U^H=Udiag(\lambda_1-\lambda_{min},\lambda_2-\lambda_{min},...,\lambda_n-\lambda_{min})U^H$ ，其特徵值均非負，故 $A-\lambda_{min}I$ 是半正定的，即 $\lambda_{min}I\leqslant A$ 。同理可證 $A\leqslant\lambda_{max}I$ 。

下面只是用這個結論解決一下自己在學習凸優化時的疑問，當做一個學習記錄，讀者可選擇性地跳過這一段^_^。

用這個結論解決一下最近學習凸優化過程中遇到的一個問題：無約束凸優化問題的牛頓下降法的二次收斂階段有一個關鍵不等式：
它的證明用到如下過程：
其中最後一個不等號讓人百思不得其解。最後發現用矩陣不等式就可以得到。先給出牛頓法證明的前提條件：強凸性條件，即對於二階連續可微的凸函數 $f(x)$ ，其任意點處的Hessian矩陣滿足 $\nabla^2f(x)\geqslant mI$ ，其中 $m>0$ 是一個常數。利用矩陣不等式的結論對上述最後一個不等號進行分析：
由於 $\nabla^2f(x)\geqslant mI>O$ ，所以 $O<(\nabla^2f(x))^{-1}\leqslant \frac{1}{m}I$ （定理30）。因爲 $(\nabla^2f(x))^{-1}(mI)=(mI)(\nabla^2f(x))^{-1}=m(\nabla^2f(x))^{-1}$ ，所以 $(\nabla^2f(x))^{-2}\leqslant\frac{1}{m^2}I$ （定理29）。於是 $\nabla f(x)^T(\nabla^2f(x))^{-2}\nabla f(x)\leqslant\nabla f(x)^T(\frac{1}{m^2}I)\nabla f(x)=\frac{1}{m^2}\nabla f(x)^T\nabla f(x)$ （矩陣不等式的定義與半正定矩陣的定義），故最後一個不等號成立。

分塊矩陣的Schur補定理

該定理在控制理論分析中有重要應用。不過沒想到的是，第一次碰見這個定理是在上《複雜網絡動力學》的時候~作爲一個計算機系學生始終不知道爲什麼要上這種課。。。
證明需要用到分塊矩陣的初等變換，也就是“矩陣打洞法”，不清楚的童鞋請參考鏈接中的初等變換部分。

定理33：設 $A=\begin{bmatrix}R_{11}&R_{12}\\R_{21}&R_{22}\end{bmatrix}\in C^{n\times n}$ 是一個Hermite矩陣，其中 $R_{11}\in C^{m_1\times m_1}$ ， $R_{22}\in C^{m_2\times m_2}$ ， $R_{12}^H=R_{21}$ ， $m_1+m_2=n$ 。則有以下結論成立：
（1） $A>O$ 的充要條件爲 $R_{11}>O$ 且 $R_{22}-R_{12}^HR_{11}^{-1}R_{12}>O$
（2） $A>O$ 的充要條件爲 $R_{22}>O$ 且 $R_{11}-R_{12}^HR_{22}^{-1}R_{12}>O$
證明：只證（1），（2）的證明是類似的。
充分性：
由 $R_{11}$ 正定知 $R_{11}$ 可逆，故可做如下初等變換：
$A=\begin{bmatrix}R_{11}&R_{12}\\R_{12}^H&R_{22}\end{bmatrix}\overset{\text{行變換}}{\rightarrow}\begin{bmatrix}R_{11}&R_{12}\\O&R_{22}-R_{12}^HR_{11}^{-1}R_{12}\end{bmatrix}\overset{\text{列變換}}{\rightarrow}\begin{bmatrix}R_{11}&O\\O&R_{22}-R_{12}^HR_{11}^{-1}R_{12}\end{bmatrix}$
將上述初等變換用分塊初等矩陣寫出就是
$\begin{bmatrix}I_{m_1}&O\\-R_{12}^HR_{11}^{-1}&I_{m_2}\end{bmatrix}\begin{bmatrix}R_{11}&R_{12}\\R_{12}^H&R_{22}\end{bmatrix}\begin{bmatrix}I_{m_1}&-R_{11}^{-1}R_{12}\\O&I_{m_2}\end{bmatrix}=\begin{bmatrix}R_{11}&O\\O&R_{22}-R_{12}^HR_{11}^{-1}R_{12}\end{bmatrix}$
令 $P=\begin{bmatrix}I_{m_1}&-R_{11}^{-1}R_{12}\\O&I_{m_2}\end{bmatrix},S=R_{22}-R_{12}^HR_{11}^{-1}R_{12}$ ，則上式即爲
$P^HAP=\begin{bmatrix}R_{11}&O\\O&S\end{bmatrix}$ 由已知及定理23知分塊矩陣 $P^HAP$ 是正定的，注意到 $P$ 是可逆的，故由定理6知 $A$ 是正定的。
必要性：
由 $A$ 正定可知主子矩陣 $R_{11}$ 正定（可參考定理3的必要性的證明），從而 $R_{11}$ 可逆，上述初等變換仍成立。從而由定理23、定理6可知 $S$ 是正定的，故 $R_{11}$ 和 $S$ 均正定。
【注】 $R_{22}-R_{12}^HR_{11}^{-1}R_{12}$ 稱爲子塊 $R_{11}$ 的Schur補，記作 $A/R_{11}$ 。 $R_{11}-R_{12}^HR_{22}^{-1}R_{12}$ 稱爲子塊 $R_{22}$ 的Schur補，記作 $A/R_{22}$ 。

矩陣不等式的一個應用：瑞利商和廣義瑞利商

最近看到LDA（線性判別分析）算法的推導中用到了瑞利商和廣義瑞利商的概念，求它們的最大值或最小值的問題可以用矩陣不等式解決，恰好放在這裏作爲一個應用矩陣不等式和矩陣算數平方根的例子。

瑞麗商

定義：設有Hermite矩陣 $A\in C^{n\times n}$ 和非零向量 $x\in C^n$ ， $A$ 和 $x$ 的瑞利商 $R(A,x)$ 定義爲： $R(A,x)=\frac{x^HAx}{x^Hx}$
【注】實際中遇到的情形往往是實數域下的， $A$ 爲實對稱矩陣，這種情形只是我們接下來討論的結論的一個特例。

接下來討論給定Hermite矩陣 $A$ 時，瑞利商的最大值和最小值。
前面提到了，對任意Hermite矩陣 $A$ ，有矩陣不等式 $\lambda_{min}I\leqslant A\leqslant\lambda_{max}I$ ，其中， $\lambda_{min}$ 和 $\lambda_{max}$ 分別是 $A$ 的最小特徵值和最大特徵值。於是 $\lambda_{min}=\frac{x^H(\lambda_{min}I)x}{x^Hx}\leqslant\frac{x^HAx}{x^Hx}\leqslant\frac{x^H(\lambda_{max}I)x}{x^Hx}=\lambda_{max}$ 容易驗證當 $x$ 取 $A$ 對應於特徵值 $\lambda_{min}$ 的一個特徵向量時，瑞利商取得最小值 $\lambda_{min}$ ；同理當 $x$ 取 $A$ 對應於特徵值 $\lambda_{max}$ 的一個特徵向量時，瑞利商取得最大值 $\lambda_{max}$ 。

廣義瑞麗商

定義：設有Hermite矩陣 $A,B\in C^{n\times n}$ 和非零向量 $x\in C^n$ ， $A,B$ 和 $x$ 的廣義瑞利商 $R(A,B,x)$ 定義爲： $R(A,B,x)=\frac{x^HAx}{x^HBx}$ 其中， $x^HBx\neq 0$ 。

後文我們將分析得到如下結論：

結論：設Hermite矩陣 $A,B\in C^{n\times n}$ ，其中 $B$ 正定，則 $\lambda_{min}\leqslant R(A,B,x)\leqslant \lambda_{max}$ 其中 $\lambda_{min}$ 和 $\lambda_{max}$ 分別是 $B^{-1}A$ 的最小特徵值和最大特徵值（也是 $B^{-\frac{1}{2}}AB^{-\frac{1}{2}}$ 的最小特徵值和最大特徵值）；
當 $x$ 取 $B^{-1}A$ 對應於 $\lambda_{min}$ 的一個特徵向量時， $R(A,B,x)$ 取得最小值 $\lambda_{min}$ ；
當 $x$ 取 $B^{-1}A$ 對應於 $\lambda_{max}$ 的一個特徵向量時， $R(A,B,x)$ 取得最大值 $\lambda_{max}$ 。

以下是分析過程。

根據定義，瑞利商可以視作廣義瑞利商的一個特例（ $B$ 取單位矩陣）。而廣義瑞麗商的最值問題可以通過將廣義瑞麗商轉化爲瑞麗商解決。
先將廣義瑞麗商等價地寫成 $R(A,B,x)=\frac{\frac{x^HAx}{x^Hx}}{\frac{x^HBx}{x^Hx}}$ 分子和分母分別是一個瑞麗商。注意到分母 $\frac{x^HBx}{x^Hx}$ 當 $B$ 是不定矩陣時可能取到零，而分子 $\frac{x^HAx}{x^Hx}$ 無論如何都是有界的（根據瑞麗商的結論），因此當 $B$ 是不定矩陣時， $R(A,B,x)$ 可能取到正無窮或負無窮（即不存在最大值或最小值）。爲使得 $R(A,B,x)$ 有最大值和最小值，我們將 $B$ 限定爲正定矩陣或負定矩陣，以保證當 $x\neq 0$ 時， $x^HBx\neq 0$ 。
接下來只討論 $B$ 正定的情況， $B$ 負定的情形是類似的。
由前面矩陣算數平方根的結論知， $B$ 存在唯一的算數平方根 $B^{\frac{1}{2}}$ ，且 $B^{\frac{1}{2}}$ 是正定的。於是 $R(A,B,x)$ 可以寫成 $R(A,B,x)=\frac{x^HAx}{x^HB^{\frac{1}{2}}B^{\frac{1}{2}}x}=\frac{x^HAx}{x^H(B^{\frac{1}{2}})^HB^{\frac{1}{2}}x}$ 作變量代換 $y=B^{\frac{1}{2}}x$ ，則 $R(A,B,x)$ 可以寫成 $R(A,B,x)=\frac{y^H(B^{-\frac{1}{2}})^HAB^{-\frac{1}{2}}y}{y^Hy}=\frac{y^HB^{-\frac{1}{2}}AB^{-\frac{1}{2}}y}{y^Hy}=R(B^{-\frac{1}{2}}AB^{-\frac{1}{2}},y)$ 注意正定陣 $B^\frac{1}{2}$ 是可逆的，因此 $y=B^{\frac{1}{2}}x$ 是等價代換，這就將廣義瑞麗商等價轉換成了瑞麗商。

根據瑞麗商的結論， $R(A,B,x)$ 的最小值和最大值分別爲 $B^{-\frac{1}{2}}AB^{-\frac{1}{2}}$ 的最小特徵值和最大特徵值，且當 $y=B^{\frac{1}{2}}x$ 分別取 $B^{-\frac{1}{2}}AB^{-\frac{1}{2}}$ 對應於最小特徵值的特徵向量和對應於最大特徵值的特徵向量時， $R(A,B,x)$ 取到最小值和最大值。

因爲矩陣 $B^{-\frac{1}{2}}AB^{-\frac{1}{2}}$ 不易計算（要對 $B^{-1}$ 進行開方），由 $B^{-\frac{1}{2}}(B^{-\frac{1}{2}}AB^{-\frac{1}{2}})B^{\frac{1}{2}}=B^{-1}A$ 知 $B^{-\frac{1}{2}}AB^{-\frac{1}{2}}$ 和 $B^{-1}A$ 是相似的，特徵值相同，而 $B^{-1}A$ 相對來說更容易計算，故可將上面的結論陳述爲：
$R(A,B,x)$ 的最小值和最大值分別爲 $B^{-1}A$ 的最小特徵值和最大特徵值。 $x$ 取何值時 $R(A,B,x)$ 取到最小值和最大值呢？
設 $y_1$ 是 $B^{-\frac{1}{2}}AB^{-\frac{1}{2}}$ 對應於最小特徵值的特徵向量，即 $B^{-\frac{1}{2}}AB^{-\frac{1}{2}}y_1=\lambda_{min}y_1$ 且 $y_1\neq 0$ 。根據變換 $y=B^{\frac{1}{2}}x$ ，將 $y_1=B^{\frac{1}{2}}x_1$ 代入上式得 $B^{-\frac{1}{2}}AB^{-\frac{1}{2}}B^{\frac{1}{2}}x_1=\lambda_{min}B^{\frac{1}{2}}x_1$ 兩端左乘 $B^{-\frac{1}{2}}$ 得 $B^{-1}Ax_1=\lambda_{min}x_1$ 可見 $x_1$ 恰好是 $B^{-1}A$ 對應於最小特徵值的特徵向量。於是當 $x$ 取 $B^{-1}A$ 對應於最小特徵值的特徵向量時， $R(A,B,x)$ 取到最小值；當 $x$ 取 $B^{-1}A$ 對應於最大特徵值的特徵向量時， $R(A,B,x)$ 取到最大值。

矩陣論（五）：矩陣的正定性

矩陣的正定性及其性質

複習實正定矩陣

一些概念補充

正定、半正定、負定、半負定的定義

判別矩陣正定性的充要條件

其他性質

矩陣的算數平方根

存在性與唯一性

推廣：矩陣的有理數次冪

矩陣不等式

常用的矩陣不等式舉例

Hermite矩陣的一個不等式

分塊矩陣的Schur補定理

矩陣不等式的一個應用：瑞利商和廣義瑞利商

瑞麗商

廣義瑞麗商

C語言--右移左移

12款高效開源Wiki系統推薦，打造團隊知識管理利器

一個開源且全面的C#算法實戰教程

dotnet 基於 DirectML 控制檯運行 Phi-3 模型

自定義MyBatis插件

一款.NET開源、功能強大、跨平臺的繪圖庫 - OxyPlot

常用的 Git 指令

鼠標控制軟件有可能和虛擬機軟件產生衝突

sm4加密工具類

矩陣論（八）：矩陣微分與矩陣求導

矩陣論（零）：線性代數基礎知識整理（4）——線性空間與線性變換

矩陣論（二）：廣義逆矩陣（下）

矩陣論（五）：矩陣的正定性

矩陣論（四）：矩陣分解—從Schur分解、特徵值分解EVD到奇異值分解SVD（下）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結