矩陣論(五):矩陣的正定性

矩陣論專欄:專欄(文章按照順序排序)

矩陣的正定性是矩陣理論的基礎,在機器學習的很多算法中都有它的身影。正定矩陣是很基礎的工具,當涉及到諸如協方差矩陣、海森矩陣、不等式時就可能會用到正定性。另外,控制理論、凸優化理論等有線性矩陣不等式的重要應用。研究矩陣正定性用特徵值分解(譜分解)比較方便、自然,本文利用特徵值分解探討正定性的常用結論,並在個人能力範圍內儘量做到全面、清晰。文中如有錯誤,歡迎留言更正。

參考資料:
線性代數基礎知識系列:12345
矩陣分解—從Schur分解、特徵值分解EVD到奇異值分解SVD(下)
矩陣論(補充知識):特徵多項式的展開式

定理比較多,個人認爲比較重要的結論/定理,都用加粗字體標出。文中定理5和定理25使用了攝動法,有點類似於物理學中的微擾法。當我們研究的某個函數是連續函數時,如果想知道該函數在某一個具體點處的性質,只要給自變量一個微小增量,在該點的“附近”論證性質成立,然後取極限證明該點處性質仍成立。

本文只研究Hermite矩陣/實對稱矩陣的正定性。


  • 矩陣的正定性及其性質
    • 實正定矩陣
    • 一些概念補充(合同、共軛相合、主子式、順序主子式)
    • 正定、半正定、負定、半負定的定義
    • 判別矩陣正定性的充要條件
    • 其他常用的性質
  • 矩陣的算數平方根
    • 存在性與唯一性
    • 推廣:矩陣的有理數次冪
  • 矩陣不等式
    • 定義與理解
    • 基本性質
    • 其他常用性質
    • 常用的矩陣不等式舉例
      • Hermite矩陣的一個不等式
      • 分塊矩陣的Schur補定理
  • 矩陣不等式的一個應用:瑞利商與廣義瑞利商

矩陣的正定性及其性質

複習實正定矩陣

  • 定義:稱關於n個變量x1,x2,...,xnRx_1,x_2,...,x_n\in R的二次齊次實係數多項式函數f(x1,x2,...,xn)=i=1nj=1naijxixj,aij=ajif(x_1,x_2,...,x_n)=\sum_{i=1}^n\sum_{j=1}^na_{ij}x_ix_j,a_{ij}=a_{ji}爲一個n元實二次型
  • 定義:設有n元實二次型f(x1,x2,...,xn)=i=1nj=1naijxixj,aij=ajif(x_1,x_2,...,x_n)=\sum_{i=1}^n\sum_{j=1}^na_{ij}x_ix_j,a_{ij}=a_{ji},令x=(x1,x2,...,xn)Tx=(x_1,x_2,...,x_n)^TA=(aij)n×nA=(a_{ij})_{n\times n},則該實二次型可被寫成f(x)=xTAxf(x)=x^TAx,稱實對稱矩陣A爲二次型f(x)f(x)的矩陣,A的秩爲二次型f(x)f(x)的秩
  • 定義:設f(x)=xTAxf(x)=x^TAx是一個n元實二次型,若對xRn,x0\forall x\in R^n,x\neq 0f(x)>0f(x)>0,則稱ff爲正定二次型,實對稱矩陣A爲正定矩陣

參照上面的定義,一個n階實對稱矩陣A和相應的二次型xTAxx^TAx稱爲:
半正定的,若對xRn,x0\forall x\in R^n,x\neq 0xTAx0x^TAx\geqslant 0
負定的,若對xRn,x0\forall x\in R^n,x\neq 0xTAx<0x^TAx<0
半負定的,若對xRn,x0\forall x\in R^n,x\neq 0xTAx0x^TAx\leqslant 0
不定的,若xTAxx^TAx既能取到正值也能取到負值。

實數域下正定矩陣的結論與複數域下正定矩陣的結論是一致的,下面直接討論複數域下的結論。

一些概念補充

  • 合同:設A,B爲n階實矩陣,若存在n階可逆實矩陣P使得PTAP=BP^TAP=B,則稱A與B合同(或A合同於B),記爲ABA\simeq B,並稱A到PTAPP^TAP的變換爲合同變換
  • 共軛相合(也簡稱相合):設A,BCn×nA,B\in C^{n\times n},若存在PCnn×nP\in C^{n\times n}_n使得PHAP=BP^HAP=B,則稱A共軛相合於B,或A與B共軛相合

實數域下的合同可以看做是複數域下的共軛相合的特例。

  • 主子式:設A=(aij)n×nA=(a_{ij})_{n\times n}1i1<i2<<ikn1\leqslant i_1\lt i_2\lt \cdots \lt i_k\leqslant n,稱A(i1i2iki1i2ik)=[ai1i1ai1i2ai1ikai2i1ai2i2ai2ikaiki1aiki2aikik]A\begin{pmatrix}i_1&i_2&\cdots&i_k\\i_1&i_2&\cdots&i_k\end{pmatrix}=\begin{bmatrix}a_{i_1i_1}&a_{i_1i_2}&\cdots&a_{i_1i_k}\\a_{i_2i_1}&a_{i_2i_2}&\cdots&a_{i_2i_k}\\\cdots&\cdots&\cdots&\cdots\\a_{i_ki_1}&a_{i_ki_2}&\cdots&a_{i_ki_k}\end{bmatrix}爲A的一個k階主子矩陣,其行列式爲A的k階主子式
    【注】符號A(i1i2iki1i2ik)A\begin{pmatrix}i_1&i_2&\cdots&i_k\\i_1&i_2&\cdots&i_k\end{pmatrix}大括號內的第一行是A的若干行指標(索引),第二行是A的若干列指標(索引),這個符號的整體意思就是取A的第i1,i2,,iki_1,i_2,\cdots,i_k行,與相應的第i1,i2,,iki_1,i_2,\cdots,i_k列,這些行和列交叉位置的元素按照原本的位置關係排列成的新矩陣。這個矩陣是A的子矩陣之一,因爲行指標和列指標相同,所以稱爲主子矩陣。
  • 順序主子式:設A=(aij)n×nA=(a_{ij})_{n\times n},稱主子矩陣A(12k12k),knA\begin{pmatrix}1&2&\cdots&k\\1&2&\cdots&k\end{pmatrix},k\leqslant n的行列式爲A的k階順序主子式

正定、半正定、負定、半負定的定義

注意到對於一共軛對稱矩陣ACn×nA\in C^{n\times n}以及xCnx\in C^n(xHAx)H=xHAHx=xHAx(x^HAx)^H=x^HA^Hx=x^HAx,即xHAx=xHAx\overline{x^HAx}=x^HAx,故xHAxx^HAx是實數。因而實數域下正定性的概念可直接推廣到複數域上來(實數域下正定性是用xTAx>0x^TAx>0定義的,那麼複數域下正定性用xHAx>0x^HAx>0來定義):

  • 定義:稱關於n個變量x1,x2,...,xnCx_1,x_2,...,x_n\in C的二次齊次復係數多項式函數f(x1,x2,...,xn)=i=1nj=1naijxixjf(x_1,x_2,...,x_n)=\sum_{i=1}^n\sum_{j=1}^na_{ij}\overline{x_i}x_j,滿足aij=aji\overline{a_{ij}}=a_{ji},爲一個n元Hermite二次型
  • 定義:設有n元二次型f(x1,x2,...,xn)=i=1nj=1naijxixj,aij=ajif(x_1,x_2,...,x_n)=\sum_{i=1}^n\sum_{j=1}^na_{ij}\overline{x_i}x_j,\overline{a_{ij}}=a_{ji},令x=(x1,x2,...,xn)Tx=(x_1,x_2,...,x_n)^TA=(aij)n×nA=(a_{ij})_{n\times n},則該二次型可被寫成f(x)=xHAxf(x)=x^HAx,稱Hermite矩陣A爲Hermite二次型f(x)f(x)的矩陣,A的秩爲Hermite二次型f(x)f(x)的秩
  • 定義:設f(x)=xHAxf(x)=x^HAx是一個n元Hermite二次型,若對xCn,x0\forall x\in C^n,x\neq 0f(x)>0f(x)>0,則稱ff爲正定Hermite二次型,Hermite矩陣A爲正定矩陣

參照上面的定義,一個n階共軛對稱矩陣A和相應的二次型xHAxx^HAx稱爲:
半正定的,若對xCn,x0\forall x\in C^n,x\neq 0xHAx0x^HAx\geqslant 0
負定的,若對xCn,x0\forall x\in C^n,x\neq 0xHAx<0x^HAx<0
半負定的,若對xCn,x0\forall x\in C^n,x\neq 0xHAx0x^HAx\leqslant 0
不定的,若xHAxx^HAx既能取到正值也能取到負值。

判別矩陣正定性的充要條件

對於正定矩陣和半正定矩陣的判定稍微有些差異,下面的結論將正定矩陣和半正定矩陣分開說明。因爲AA正定等價於A-A負定,AA半正定等價於A-A半負定,所以(半)負定矩陣的等價條件可由相應的(半)正定矩陣的等價條件得到,本文略去。

以下均設A,BCn×nA,B\in C^{n\times{n}},A,B均爲共軛對稱矩陣(Hermite矩陣)。

特徵值判定

  • 定理1:A正定的充要條件爲A的特徵值都大於零
    證明:
    必要性:設Ax=λx,x0Ax=\lambda x,x\neq 0,即λ\lambda是A的任意一個特徵值,xx是對應的特徵向量,則xHAx=xHλx=λx22>0x^HAx=x^H\lambda x=\lambda ||x||_2^2>0,因爲x2>0||x||_2>0,所以λ>0\lambda >0
    充分性:設A的一個譜分解爲A=UΣUHA=U\Sigma U^H,其中U=[u1u2un]U=\begin{bmatrix}u_1&u_2&\cdots&u_n\end{bmatrix}Σ=diag(λ1,λ2,,λn)\Sigma=diag(\lambda_1,\lambda_2,\cdots,\lambda_n),則x0,UHx0,xHAx=(UHx)HΣ(UHx)=i=1nλiuiHx2>0\forall x\neq 0,U^Hx\neq 0,x^HAx=(U^Hx)^H\Sigma (U^Hx)=\sum_{i=1}^n\lambda_i|u_i^Hx|^2>0,故A正定。
    【推論】若A正定,根據A的行列式等於A的特徵值之積,有det(A)>0det(A)>0,故A可逆
  • 定理2:A半正定的充要條件爲A的特徵值都非負
    證明:與上同理。

順序主子式、主子式判定

  • 定理3:A正定的充要條件爲A的所有順序主子式都大於零
    證明:
    必要性:對任意0xkCk0\neq x_k\in C^k,有x=[xk0nk]0x=\begin{bmatrix}x_k\\0_{n-k}\end{bmatrix}\neq 0,xHAx=xkHA(12k12k)xk>0,x^HAx=x_k^HA\begin{pmatrix}1&2&\cdots&k\\1&2&\cdots&k\end{pmatrix}x_k>0,故A(12k12k)A\begin{pmatrix}1&2&\cdots&k\\1&2&\cdots&k\end{pmatrix}正定,其行列式大於零,即A的順序主子式大於零。
    充分性:思路是從二次型着手,使用數學歸納法,對n進行歸納(n爲A的階數)。
    n=1n=1時,顯然結論成立。假定結論對n-1成立,現證明結論對n也成立:
    設A的Hermite二次型爲f(x)=xHAx=i=1nj=1naijxixj,0xCnf(x)=x^HAx=\sum_{i=1}^n \sum_{j=1}^na_{ij} \overline x_ix_j,0\neq x\in C^n,由已知aija_{ij}ajia_{ji}互爲共軛,且a11>0a_{11}>0,故可將f(x)f(x)寫成如下形式:f(x)=1a11i=1na1ixij=1na1jxj+i=2nj=2nbijxixjf(x)=\frac{1}{a_{11}} \sum_{i=1}^n \overline a_{1i} \overline x_i \sum_{j=1}^na_{1j}x_j+\sum_{i=2}^n \sum_{j=2}^nb_{ij} \overline x_ix_j其中bij=aij1a11a1ia1jb_{ij}=a_{ij}-\frac{1}{a_{11}} \overline a_{1i}a_{1j},滿足bij=bji\overline b_{ij}=b_{ji}。記g(x)=1a11i=1na1ixij=1na1jxj=1a11j=1na1jxj20g(x)=\frac{1}{a_{11}} \sum_{i=1}^n \overline a_{1i} \overline x_i \sum_{j=1}^na_{1j}x_j=\frac{1}{a_{11}}|\sum_{j=1}^na_{1j}x_j|^2\geqslant 0。當x10x_1\neq 0x2=x3=...=xn=0x_2=x_3=...=x_n=0時,f(x)=g(x)=a11x12a11>0f(x)=g(x)=\frac{|a_{11}x_1|^2}{a_{11}}\gt 0。如果能夠證明當x2,x3,...,xnx_2,x_3,...,x_n不全爲零時,二次型f(x)g(x)=i=2nj=2nbijxixj>0f(x)-g(x)=\sum_{i=2}^n \sum_{j=2}^nb_{ij} \overline x_ix_j\gt 0,此時就有f(x)=g(x)+(f(x)g(x))f(x)g(x)>0f(x)=g(x)+(f(x)-g(x))\geqslant f(x)-g(x)>0。這樣的話x0\forall x\neq 0,都有f(x)>0f(x)>0,於是結論便成立。
    現在證明當x2,x3,...,xnx_2,x_3,...,x_n不全爲零時,f(x)g(x)>0f(x)-g(x)>0。考慮對A的任意k階順序主子式進行如下變換:
    在這裏插入圖片描述
    由已知Δk>0\Delta_k>0a11>0a_{11}>0,因此
    在這裏插入圖片描述
    也就是說,Hermite二次型i=2nj=2nbijxixj\sum_{i=2}^n \sum_{j=2}^nb_{ij} \overline x_ix_j的矩陣(是n-1階的)的任意順序主子式均爲正。由歸納假設知二次型i=2nj=2nbijxixj\sum_{i=2}^n \sum_{j=2}^nb_{ij} \overline x_ix_j是正定的,故當x2,x3,...,xnx_2,x_3,...,x_n不全爲零時,i=2nj=2nbijxixj>0\sum_{i=2}^n \sum_{j=2}^nb_{ij} \overline x_ix_j>0。得證。

  • 定理4:A正定的充要條件爲A的所有主子式都大於零
    證明:
    必要性:設1i1<i2<<ikn1\leqslant i_1\lt i_2\lt \cdots \lt i_k\leqslant nΠ={i1,i2,...,ik}\Pi = \{i_1,i_2,...,i_k\},對任意0yCk0\neq y\in C^k,構造xCnx\in C^n,其分量xjx_j滿足若jΠj\notin \Pixj=0x_j=0,若jΠj\in \Pixj=ydx_j=y_{d},其中j=idj=i_d1dk1\leqslant d\leqslant k。則xHAx=yHA(i1i2iki1i2ik)y>0x^HAx=y^HA\begin{pmatrix}i_1&i_2&\cdots&i_k\\i_1&i_2&\cdots&i_k\end{pmatrix}y>0,故A(i1i2iki1i2ik)A\begin{pmatrix}i_1&i_2&\cdots&i_k\\i_1&i_2&\cdots&i_k\end{pmatrix}正定,其行列式大於零,即A的主子式大於零。
    充分性:A的所有主子式大於零,故A的所有順序主子式大於零,由定理3便知A正定。

  • 定理5:A半正定的充要條件爲A的所有主子式都非負
    證明:
    必要性:與上同理。
    充分性:使用攝動法。任取k=1,2,...,nk=1,2,...,n,設Ak=A(12k12k)A_k=A\begin{pmatrix}1&2&\cdots&k\\1&2&\cdots&k\end{pmatrix},由已知AkA_k的所有主子式非負(注意AkA_k的主子式都是AA的主子式)。t>0\forall t>0det(tI+Ak)=tk+p1tk1+p2tk2+...+pk1t+pkdet(tI+A_k)=t^k+p_1t^{k-1}+p_2t^{k-2}+...+p_{k-1}t+p_k,其中係數pi(i=1,2,...,k)p_i(i=1,2,...,k)AkA_k的所有ii階主子式之和,有pi0p_i\geqslant 0,故det(tI+Ak)tk>0det(tI+A_k)\geqslant t^k>0。也就是說tI+AtI+A的所有順序主子式大於零,於是根據定理3知道tI+AtI+A正定。0xCn,xH(tI+A)x>0\forall 0\neq x\in C^n,x^H(tI+A)x>0,令t0+t\rightarrow 0^+就有xHAx0x^HAx\geqslant 0,故A半正定。
    【注1】A的全部順序主子式非負並不能保證A是半正定的,例如如下反例:A=[0001001001001000]A=\begin{bmatrix}0&0&0&1\\0&0&1&0\\0&1&0&0\\1&0&0&0\end{bmatrix}其各階順序主子式分別爲0,0,0,1,但存在x=(1,0,0,1)Tx=(1,0,0,-1)^T,有xTAx=2<0x^TAx=-2<0,故A不是半正定的。
    【注2】證明中用到了det(tI+Ak)det(tI+A_k)的展開式,展開式的證明可參考矩陣論(補充知識):特徵多項式的展開式

【從共軛相合的角度判定】

  • 定理6:若A與B相合,則A正定等價於B正定
    證明:
    由相合的定義,存在可逆矩陣P使得B=PHAPB=P^HAP,若A正定,則x0,Px0,xHBx=(Px)HA(Px)>0\forall x\neq 0, Px\neq 0,x^HBx=(Px)^HA(Px)>0,故B正定。同理可證若B正定,則A正定。
  • 定理7:若A與B相合,則A半正定等價於B半正定
    證明:同上。
  • 定理8:A正定的充要條件爲A與同階單位陣相合
    證明:
    必要性:設A的一個譜分解爲A=UΣUH,Σ=diag(λ1,λ2,,λn)A=U\Sigma U^H,\Sigma=diag(\lambda_1,\lambda_2,\cdots,\lambda_n),則由A正定知λi>0,i=1,2,...,n\lambda_i>0,i=1,2,...,n。設P=UΣ^1P=U\hat\Sigma^{-1},其中Σ^=diag(λ1,λ2,,λn)\hat\Sigma=diag(\sqrt{\lambda_1},\sqrt{\lambda_2},\cdots,\sqrt{\lambda_n}),則P可逆,且A=(PPH)1A=(PP^H)^{-1}PHAP=IP^HAP=I,故A與同階單位陣I相合。
    充分性:若A與同階單位陣I相合,則存在可逆矩陣P使得PHAP=IP^HAP=I,即A=(P1)HP1A=(P^{-1})^HP^{-1},對x0\forall x\neq 0P1x0P^{-1}x\neq 0xHAx=(P1x)H(P1x)=P1x22>0x^HAx=(P^{-1}x)^H(P^{-1}x)=||P^{-1}x||_2^2>0,故A正定。
  • 定理9:A半正定的充要條件爲A與[IrOOO]\begin{bmatrix}I_r&O\\O&O\end{bmatrix}相合,其中r=r(A)r=r(A)
    證明:
    必要性:設A的一個譜分解爲A=UΣUH,Σ=diag(λ1,λ2,,λr,0,,0)A=U\Sigma U^H,\Sigma=diag(\lambda_1,\lambda_2,\cdots,\lambda_r,0,\cdots,0)λi>0,i=1,2,...,r\lambda_i>0,i=1,2,...,r。設P=UΛ1P=U\Lambda^{-1},其中Λ=diag(λ1,λ2,,λr,1,...,1)\Lambda=diag(\sqrt{\lambda_1},\sqrt{\lambda_2},\cdots,\sqrt{\lambda_r},1,...,1),則P可逆,且A=(PH)1[IrOOO]P1A=(P^H)^{-1}\begin{bmatrix}I_r&O\\O&O\end{bmatrix}P^{-1}PHAP=[IrOOO]P^HAP=\begin{bmatrix}I_r&O\\O&O\end{bmatrix},故A與[IrOOO]\begin{bmatrix}I_r&O\\O&O\end{bmatrix}相合。
    充分性:若A與[IrOOO]\begin{bmatrix}I_r&O\\O&O\end{bmatrix}相合,則存在可逆矩陣P使得PHAP=[IrOOO]P^HAP=\begin{bmatrix}I_r&O\\O&O\end{bmatrix},即A=(P1)H[IrOOO]P1A=(P^{-1})^H\begin{bmatrix}I_r&O\\O&O\end{bmatrix}P^{-1},對x0\forall x\neq 0P1x0P^{-1}x\neq 0xHAx=(P1x)H[IrOOO](P1x)=i=1r(P1x)i20x^HAx=(P^{-1}x)^H\begin{bmatrix}I_r&O\\O&O\end{bmatrix}(P^{-1}x)=\sum_{i=1}^r|(P^{-1}x)_i|^2\geqslant 0,其中(P1x)i(P^{-1}x)_i表示向量P1xP^{-1}x的第ii個分量,故A半正定。

【其他充要條件】

  • 定理10:A正定的充要條件爲存在同階可逆矩陣C使得A=CHCA=C^HC
    證明:顯然這是定理8一個等價表述。
  • 定理11:A半正定的充要條件爲存在秩爲r(A)r(A)的同階方陣C,使得A=CHCA=C^HC成立
    證明:
    必要性:設A的一個譜分解爲A=UΣUH,Σ=diag(λ1,λ2,,λr,0,...,0),λi>0,i=1,2,...,r,r=r(A)A=U\Sigma U^H,\Sigma=diag(\lambda_1,\lambda_2,\cdots,\lambda_r,0,...,0),\lambda_i>0,i=1,2,...,r,r=r(A)。設C=(UΣ^)HC=(U\hat\Sigma)^H,其中Σ^=diag(λ1,λ2,,λr,0,..,0)\hat\Sigma=diag(\sqrt{\lambda_1},\sqrt{\lambda_2},\cdots,\sqrt{\lambda_r},0,..,0),則r(C)=r(A)r(C)=r(A),且A=CHCA=C^HC
    充分性:若A=CHCA=C^HC,則x0\forall x\neq 0xHAx=(Cx)H(Cx)=Cx220x^HAx=(Cx)^H(Cx)=||Cx||_2^2\geqslant 0,故A半正定。
  • 定理12:A正定的充要條件爲存在列滿秩矩陣P使得A=PHPA=P^HP
    必要性:與上同理。
    充分性:若A=PHPA=P^HP,則x0\forall x\neq 0,由P列滿秩知Px0Px\neq 0(否則由P列滿秩知其左僞逆L=(PHP)1PHL=(P^HP)^{-1}P^H存在,Px=0x=LPx=0Px=0\Rightarrow x=LPx=0,矛盾),xHAx=(Px)H(Px)=Px22>0x^HAx=(Px)^H(Px)=||Px||_2^2\gt 0,故A正定。
  • 定理13:A半正定的充要條件爲存在秩爲r(A)r(A)的矩陣P,使得A=PHPA=P^HP成立
    證明:與上同理。
  • 定理14:A正定的充要條件爲存在同階正定矩陣C使得A=C2A=C^2
    證明:
    必要性:設A的一個譜分解爲A=UΣUH,Σ=diag(λ1,λ2,,λn)A=U\Sigma U^H,\Sigma=diag(\lambda_1,\lambda_2,\cdots,\lambda_n),則由A正定知λi>0,i=1,2,...,n\lambda_i>0,i=1,2,...,n。設C=UΣ^UHC=U\hat\Sigma U^H,其中Σ^=diag(λ1,λ2,,λn)\hat\Sigma=diag(\sqrt{\lambda_1},\sqrt{\lambda_2},\cdots,\sqrt{\lambda_n}),則由C共軛對稱且特徵值都大於零知C是正定矩陣,且驗證可知A=C2A=C^2成立。
    充分性:若A=C2A=C^2,由C正定知C可逆,故x0\forall x\neq 0,有Cx0Cx\neq 0xHAx=xHCCx=xHCHCx=Cx22>0x^HAx=x^HCCx=x^HC^HCx=||Cx||^2_2>0,故A正定。
  • 定理15:A半正定的充要條件爲存在同階半正定矩陣C使得A=C2A=C^2
    證明:與上同理。
  • 定理16:A正定的充要條件爲存在同階可逆的Hermite矩陣C使得A=C2A=C^2
    證明:與上同理。
  • 定理17:A半正定的充要條件爲存在同階Hermite矩陣C使得A=C2A=C^2
    證明:與上同理。

其他性質

以下均設A,BCn×nA,B\in C^{n\times{n}},A,B均爲共軛對稱矩陣(Hermite矩陣)。

  • 定理18:
    (1)若A正定,則PHAPP^HAP正定的充要條件爲P列滿秩
    證明:
    因A正定,根據定理10知存在可逆矩陣C使得A=CHCA=C^HC
    必要性:由PHAP=(CP)H(CP)P^HAP=(CP)^H(CP)正定知(CP)H(CP)(CP)^H(CP)滿秩,而r(CP)=r((CP)H(CP))r(CP)=r((CP)^H(CP)),所以CPCP列滿秩,所以P列滿秩。
    充分性:由P列滿秩知CPCP列滿秩,故存在列滿秩矩陣CPCP使得PHAP=(CP)H(CP)P^HAP=(CP)^H(CP),由定理12知PHAPP^HAP正定。
    (2)若A半正定,則PHAPP^HAP半正定,其中矩陣P任取
    證明:
    因A半正定,根據定理11知存在方陣C使得A=CHCA=C^HCPHAP=(CP)H(CP)P^HAP=(CP)^H(CP)xCn,xHPHAPx=CPx220\forall x\in C^n,x^HP^HAPx=||CPx||_2^2\geqslant 0,故PHAPP^HAP半正定。

  • 定理19:
    (1)若A正定,則A的主對角元均爲正實數
    證明:對i=1,2...,ni=1,2...,n,取單位矩陣的第iieie_i,有eiHAei=aii>0e_i^HAe_i=a_{ii}>0
    【注】實際上,A的主對角元都是A的主子式,故定理4蘊含了A的主對角元都大於零這一事實。
    (2)若A半正定,則A的主對角元均爲非負實數
    證明:與上同理。

  • 定理20:(用定義驗證即可)
    (1)若A正定,常數k>0k\gt 0,則kAkA正定
    (2)若A半正定,常數k0k\geqslant 0,則kAkA半正定

  • 定理21:(用定義驗證即可)
    (1)若A,B均正定,則A+BA+B正定
    (2)若A正定,B半正定,則A+BA+B正定
    (3)若A,B均半正定,則A+BA+B半正定

  • 定理22
    (1)若A正定,則A1A^{-1}也正定
    證明:因爲A是Hermite的,所以A1A^{-1}也是Hermite的。x0\forall x\neq 0,有A1x0,xHA1x=xHA1AA1x=(A1x)HA(A1x)>0A^{-1}x\neq 0,x^HA^{-1}x=x^HA^{-1}AA^{-1}x=(A^{-1}x)^HA(A^{-1}x)>0,故A1A^{-1}正定。
    (2)若A半正定,則A+A^+也半正定,其中A+A^+AA的Penrose-Moore逆
    證明:設A的一個譜分解爲A=UΣUH,Σ=diag(λ1,λ2,,λr,0,...,0),λi>0,i=1,2,...,rA=U\Sigma U^H,\Sigma=diag(\lambda_1,\lambda_2,\cdots,\lambda_r,0,...,0),\lambda_i>0,i=1,2,...,r,易驗證A+=UΣ+UHA^+=U\Sigma^+U^H,其中Σ+=diag(λ11,λ21,,λr1,0,...,0)\Sigma^+=diag(\lambda_1^{-1},\lambda_2^{-1},\cdots,\lambda_r^{-1},0,...,0),可見A+A^+是特徵值均非負的Hermite矩陣,故A+A^+半正定。

  • 定理23:
    (1)ACn×nA\in C^{n\times n}BCm×mB\in C^{m\times m}均正定的充要條件爲[AOOB]\begin{bmatrix}A&O\\O&B\end{bmatrix}正定
    證明:
    必要性:[AOOB]\begin{bmatrix}A&O\\O&B\end{bmatrix}顯然Hermite。0zCn+m,z=[xy]\forall 0\neq z\in C^{n+m},z=\begin{bmatrix}x\\y\end{bmatrix}xCn,yCmx\in C^n, y\in C^m,則x,yx,y至少有一個不爲零,故zH[AOOB]z=xHAx+yHBy>0z^H\begin{bmatrix}A&O\\O&B\end{bmatrix}z=x^HAx+y^HBy>0,故[AOOB]\begin{bmatrix}A&O\\O&B\end{bmatrix}正定。
    充分性:設P=[IO]P=\begin{bmatrix}I\\O\end{bmatrix},顯然P列滿秩,於是由定理18知A=PH[AOOB]PA=P^H\begin{bmatrix}A&O\\O&B\end{bmatrix}P正定。同理,設Q=[OI]Q=\begin{bmatrix}O\\I\end{bmatrix},Q列滿秩,B=QH[AOOB]QB=Q^H\begin{bmatrix}A&O\\O&B\end{bmatrix}Q正定。
    (2)ACn×nA\in C^{n\times n}BCm×mB\in C^{m\times m}均半正定的充要條件爲[AOOB]\begin{bmatrix}A&O\\O&B\end{bmatrix}半正定
    證明:
    必要性:[AOOB]\begin{bmatrix}A&O\\O&B\end{bmatrix}顯然Hermite。zCn+m,z=[xy]z\in C^{n+m},z=\begin{bmatrix}x\\y\end{bmatrix}xCn,yCmx\in C^n, y\in C^mzH[AOOB]z=xHAx+yHBy0z^H\begin{bmatrix}A&O\\O&B\end{bmatrix}z=x^HAx+y^HBy\geqslant 0,故[AOOB]\begin{bmatrix}A&O\\O&B\end{bmatrix}半正定。
    充分性:設P=[IO]P=\begin{bmatrix}I\\O\end{bmatrix},故由定理18知A=PH[AOOB]PA=P^H\begin{bmatrix}A&O\\O&B\end{bmatrix}P半正定。同理,設Q=[OI]Q=\begin{bmatrix}O\\I\end{bmatrix}B=QH[AOOB]QB=Q^H\begin{bmatrix}A&O\\O&B\end{bmatrix}Q半正定。

  • 定理24
    (1)設A爲一Hermite矩陣,存在tRt\in R,使得s>t\forall s>tsI+AsI+A正定
    證明:
    因A共軛對稱,故可設A的一個譜分解爲A=UΣUHA=U\Sigma U^HΣ=diag(λ1,λ2,,λn),λi\Sigma=diag(\lambda_1,\lambda_2,\cdots,\lambda_n),\lambda_i均爲實數。tI+A=U(tI+Σ)UHtI+A=U(tI+\Sigma)U^H,故只要取t=min{λ1,λ2,...,λn}t=-min\{\lambda_1,\lambda_2,...,\lambda_n\}s>t\forall s>tsI+AsI+A的特徵值就都爲正,故sI+AsI+A正定。
    (2)若A半正定,則s>0\forall s>0sI+AsI+A正定
    證明:在(1)的證明中取t=0t=0即可。

  • 定理25
    (1)若A,B均正定,且AB=BAAB=BA,則AB正定
    證明:
    (AB)H=(BA)H=AHBH=AB(AB)^H=(BA)^H=A^HB^H=ABABAB是共軛對稱的。
    因A正定,由定理14知存在同階正定矩陣C使得A=C2A=C^2CC可逆,C1ABC=CBCC^{-1}ABC=CBC,即ABABCBCCBC相似,故它們的特徵值相同。由CBC=CHBCCBC=C^HBC,故CBCCBCBB相合,由B正定及定理6知CBCCBC正定,故CBCCBC的特徵值均爲正,進而ABAB的特徵值均爲正,故ABAB正定。
    (2)若A正定,B半正定,且AB=BAAB=BA,則AB半正定
    證明:與上同理。
    (3)若A,B均半正定,且AB=BAAB=BA,則AB半正定
    證明:使用攝動法
    (AB)H=(BA)H=AHBH=AB(AB)^H=(BA)^H=A^HB^H=ABABAB是共軛對稱的。
    t>0\forall t>0tI+AtI+A正定,又(tI+A)B=B(tI+A)(tI+A)B=B(tI+A),故由(2)知(tI+A)B(tI+A)B半正定。故xCn,xH(tI+A)Bx0\forall x\in C^n,x^H(tI+A)Bx\geqslant 0,即txHBx+xHABx0,t>0tx^HBx+x^HABx\geqslant 0,\forall t>0。令t0+t\rightarrow 0^+就有xHABx0x^HABx\geqslant 0。注意到xx是任取的,故ABAB半正定。


矩陣的算數平方根

存在性與唯一性

那天看到二次範數的概念:設PP正定,xP=P12x2||x||_P=||P^{-\frac{1}{2} }x||_2,很好奇這個P12P^{-\frac{1}{2}}是什麼。在網上查了下資料,其實與非負實數的算數平方根是類似的。設P1=Udiag(λ1,λ2,...,λn)UHP^{-1}=Udiag(\lambda_1,\lambda_2,...,\lambda_n) U^H,,則C=Udiag(λ1,λ2,...,λn)UHC=Udiag(\sqrt{\lambda_1},\sqrt{\lambda_2},...,\sqrt{\lambda_n}) U^H滿足C2=P1C^2=P^{-1}(定理14的結論)。問題在於滿足C2=P1C^2=P^{-1}的C是否是唯一的?如果C不唯一,顯然P12P^{-\frac{1}{2}}這樣的表示是不合理的,因爲會產生歧義。事實上,C是唯一的,下面就來看看爲什麼:

  • 定義:設有n階方陣A,若存在n階方陣B使得A=B2A=B^2,則稱B是A的一個平方根
  • 定義:設有n階半正定矩陣A,若存在n階半正定矩陣B使得A=B2A=B^2,則稱B是A的一個算數平方根
  • 引理:設n階共軛對稱矩陣A,B有相同的特徵值,且任取它們的一個特徵值λ\lambda,A的特徵子空間N(λIA)N(\lambda I-A)與B特徵子空間N(λIB)N(\lambda I-B)相同,即N(λIA)=N(λIB)N(\lambda I-A)=N(\lambda I-B),那麼A=BA=B成立。
    證明:
    設A的一個譜分解爲A=PΣPHA=P\Sigma P^HΣ=diag(λ1,λ2,...,λn)\Sigma=diag(\lambda_1,\lambda_2,...,\lambda_n)P=[p1p2pn]P=\begin{bmatrix}p_1&p_2&\cdots&p_n\end{bmatrix}。根據已知條件,PP的任意一列pip_i也是BB對應於λi\lambda_i的特徵向量。則PHBP=[p1Hp2HpnH]B[p1p2pn]=[p1Hp2HpnH][λ1p1λ2p2λnpn]=diag(λ1,λ2,...,λn)\begin{aligned}P^HBP&=\begin{bmatrix}p_1^H\\p_2^H\\\cdots\\p_n^H\end{bmatrix}B\begin{bmatrix}p_1&p_2&\cdots&p_n\end{bmatrix}\\&=\begin{bmatrix}p_1^H\\p_2^H\\\cdots\\p_n^H\end{bmatrix}\begin{bmatrix}\lambda_1p_1&\lambda_2p_2&\cdots&\lambda_np_n\end{bmatrix}\\&=diag(\lambda_1,\lambda_2,...,\lambda_n)\end{aligned}B=PΣPH=AB=P\Sigma P^H=A
  • 定理26:任意半正定矩陣A有唯一的算數平方根
    證明:
    存在性根據定理14得到。現證明唯一性:
    設有半正定矩陣B,C滿足A=B2=C2A=B^2=C^2。設B的譜分解爲B=PΣPHB=P\Sigma P^H,其中Σ=diag(λ1,λ2,...,λn),0λ1λ2λn\Sigma=diag(\lambda_1,\lambda_2,...,\lambda_n),0\leqslant\lambda_1\leqslant \lambda_2\leqslant \cdots\leqslant \lambda_n。則B2=PΣ2PH=AB^2=P\Sigma^2P^H=A,這是A的一個譜分解,說明i=1,2,...,n\forall i=1,2,...,nN(λiIB)=N(λi2IA)N(\lambda_i I-B)=N(\lambda^2_i I-A)。同理,設C的譜分解爲C=QΣ^QHC=Q\hat\Sigma Q^H,其中Σ^=diag(λ^1,λ^2,...,λ^n),0λ^1λ^2λ^n\hat\Sigma=diag(\hat\lambda_1,\hat\lambda_2,...,\hat\lambda_n),0\leqslant\hat\lambda_1\leqslant \hat\lambda_2\leqslant \cdots\leqslant \hat\lambda_n。則C2=QΣ^2QH=AC^2=Q\hat\Sigma^2Q^H=A,這是A的一個譜分解,說明i=1,2,...,n\forall i=1,2,...,nN(λ^iIC)=N(λ^i2IA)N(\hat\lambda_i I-C)=N(\hat\lambda^2_i I-A)
    注意到Σ2\Sigma^2Σ^2\hat\Sigma^2的主對角線上都是將A的特徵值從小到大排列,因此有Σ2=Σ^2\Sigma^2=\hat\Sigma^2,故i=1,2,...,n\forall i=1,2,...,nλi2=λ^i2\lambda_i^2=\hat\lambda_i^2,即λi=λ^i\lambda_i=\hat\lambda_i(注意,半正定矩陣的特徵值非負)。結合前面的討論,i=1,2,...,n\forall i=1,2,...,nN(λiIB)=N(λi2IA)=N(λ^i2IA)=N(λ^iIC)N(\lambda_i I-B)=N(\lambda^2_i I-A)=N(\hat\lambda^2_i I-A)=N(\hat\lambda_i I-C),於是根據引理的結論必有B=CB=C

由算數平方根的存在性與唯一性,我們可以引入記號A12A^{\frac{1}{2}}(或A\sqrt A)表示半正定矩陣A的算數平方根。

  • 推論:任意正定矩陣A有唯一的算數平方根A12A^{\frac{1}{2}},且A12A^{\frac{1}{2}}是正定的

推廣:矩陣的有理數次冪

對上述結論稍作推廣,使用完全相同的證明方式就可以得到如下結論:

  • 定理27:設有n階(半)正定矩陣AA,對任意正整數kk,存在唯一的(半)正定矩陣BB使得A=BkA=B^k,記作B=A1kB=A^{\frac{1}{k}}

這說明半正定矩陣可以開任意正整數次方。再進一步,我們很容易據此定義出半正定矩陣的任意正有理數次方:設α=pq>0\alpha=\frac{p}{q}>0爲有理數,其中p,qp,q爲互質正整數,則半正定矩陣AAα\alpha次方AαA^\alpha定義爲Aα=(Ap)1qA^\alpha=(A^p)^\frac{1}{q}。注意(A1q)pq=((A1q)q)p=Ap(A^\frac{1}{q})^{pq}=((A^\frac{1}{q})^q)^p=A^p,兩邊同時開qq次方就有(A1q)p=(Ap)1q(A^\frac{1}{q})^p=(A^p)^\frac{1}{q},因此Aα=(Ap)1q=(A1q)pA^\alpha=(A^p)^\frac{1}{q}=(A^\frac{1}{q})^p
可以驗證半正定矩陣的正有理數次冪運算有如下運算律:(以下設AABB是同階半正定矩陣,α,β>0\alpha,\beta>0是正有理數)

  • Aα+β=AαAβA^{\alpha+\beta}=A^\alpha A^\beta
  • Aαβ=(Aα)β=(Aβ)αA^{\alpha\beta}=(A^{\alpha})^\beta=(A^\beta)^\alpha
  • (UAUH)α=UAαUH(UAU^H)^\alpha=UA^\alpha U^H,其中UU是與AA同階的酋矩陣

如果AABB可交換(即滿足AB=BAAB=BA),根據一些深入的分析可以知道AABB可以同時酋對角化(關於這一點可以參考Roger A Horn的《矩陣分析》),於是有如下運算律

  • (AB)α=AαBα(AB)^\alpha=A^\alpha B^\alpha
    【注】這裏簡要地證明一下:設A,BA,B的譜分解爲A=UΣ1UH,B=UΣ2UHA=U\Sigma_1U^H,B=U\Sigma_2 U^H,則(AB)α=(UΣ1Σ2UH)α=U(Σ1Σ2)αUH=UΣ1αΣ2αUH=(UΣ1αUH)(UΣ2αUH)=(UΣ1UH)α(UΣ2UH)α=AαBα(AB)^\alpha=(U\Sigma_1\Sigma_2 U^H)^\alpha=U(\Sigma_1\Sigma_2)^\alpha U^H=U\Sigma_1^\alpha\Sigma_2^\alpha U^H=(U\Sigma_1^\alpha U^H)(U\Sigma_2^\alpha U^H)=(U\Sigma_1U^H)^\alpha(U\Sigma_2 U^H)^\alpha=A^\alpha B^\alpha

如果AA正定,根據定理22知A1A^{-1}也正定,於是可以推廣到正定矩陣的任意有理數次冪:

  • 當有理數α>0\alpha>0時,Aα=(A1)αA^{-\alpha}=(A^{-1})^\alpha

可見半正定矩陣的有理數次冪與實數的冪的性質十分相似。下面從另一個角度考慮Hermite矩陣與實數之間的關係。
實數之間是可以比大小的(實數集上的大小關係是一個全序關係),那我們自然要問,矩陣是否可以比大小?實際上,我們可以利用半正定矩陣可以定義出Hermite矩陣集合上的一個偏序關係,然而,這樣定義出來的偏序關係並不是全序關係。也就是說,Hermite矩陣之間不一定能比大小,但如果兩個Hermite矩陣可以比大小,那麼它們之間的關係就很像兩個實數之間的關係,就會有很多類似的性質。下面就介紹Hermite矩陣集上的這個偏序關係:線性矩陣不等式。


矩陣不等式

  • 定義:設A,B爲同階共軛對稱矩陣(Hermite矩陣),若ABA-B是正定的,則記A>BA>B;若ABA-B是半正定的,則記ABA\geqslant B
    【注1】只要有>>\geqslant就夠了,不過也可以引入<<\leqslant
    【注2】依照上面的定義,Hernite矩陣A正定就是A>OA>O,Hermite矩陣半正定就是AOA\geqslant O
    【注3】\geqslant滿足自反性、反對稱性以及傳遞性(見下文),因此根據偏序關係的定義(參考鏈接),\geqslant定義了Hermite矩陣集上的一個偏序關係。

以下均設A,B,C,D爲同階Hermite矩陣
【注】類比實數比大小的性質,下面的性質就比較直觀了。

  • 基本性質(以下只討論\geqslant>\gt的討論是類似的)
    • 自反性:AAA\geqslant A
      (這是因爲AA=OA-A=O是半正定的)
    • 反對稱性:若ABA\geqslant BBAB\geqslant A,則A=BA=B
      證:
      由已知ABA-B既半正定又半負定,它的任意特徵值既不小於零又不大於零,只能爲零。ABA-B是Hermite矩陣,可作譜分解AB=UΣUHA-B=U\Sigma U^H,對角陣Σ\Sigma對角線上全爲零,故AB=OA-B=OA=BA=B
    • 傳遞性:若ABA\geqslant BBCB\geqslant C,則ACA\geqslant C
      證:
      由已知ABA-BBCB-C半正定,於是x0\forall x\neq 0xH(AB)x0x^H(A-B)x\geqslant 0xH(BC)x0x^H(B-C)x\geqslant 0xH(AC)x=xH(AB)x+xH(BC)x0x^H(A-C)x=x^H(A-B)x+x^H(B-C)x\geqslant 0,故ACA\geqslant C
    • 線性性:若ABA\geqslant B,實數k0k\geqslant 0,則kAkBkA\geqslant kB
    • 可加性:若ABA\geqslant BCDC\geqslant D,則A+CB+DA+C\geqslant B+D
      證明:
      由已知AB,CDA-B,C-D半正定,故(A+C)(B+D)=(AB)+(CD)(A+C)-(B+D)=(A-B)+(C-D)半正定,即A+CB+DA+C\geqslant B+D
  • 其他常用性質
    • 定理28:
      (1)設PP列滿秩,則A>B    PHAP>PHBPA>B\iff P^HAP>P^HBP
      證明:根據定理18可得。
      (2)若ABA\geqslant B,則任意矩陣P有PHAPPHBPP^HAP\geqslant P^HBP
      證明:根據定理18可得。
      (3)設有可逆矩陣PP,則A>B(AB)A>B(A\geqslant B)的充要條件爲PHAP>PHBP(PHAPPHBP)P^HAP>P^HBP(P^HAP\geqslant P^HBP)
      證明:根據定理6和定理7可得。
    • 定理29:
      (1)若A>B>OA>B>OAB=BAAB=BA,則A2>B2A^2>B^2
      證明:
      AB=BAAB=BA,故A2B2=(AB)(A+B)=(A+B)(AB)A^2-B^2=(A-B)(A+B)=(A+B)(A-B)。由A>B>OA>B>OAB>O,A+B>OA-B>O,A+B>O,根據定理25知A2B2=(AB)(A+B)>OA^2-B^2=(A-B)(A+B)>O
      (2)若AB>OA\geqslant B>OAB=BAAB=BA,則A2B2A^2\geqslant B^2
      證明:
      AB=BAAB=BA,故A2B2=(AB)(A+B)=(A+B)(AB)A^2-B^2=(A-B)(A+B)=(A+B)(A-B)。由AB>OA\geqslant B>OABO,A+B>OA-B\geqslant O,A+B>O,根據定理25知A2B2=(AB)(A+B)OA^2-B^2=(A-B)(A+B)\geqslant O
      (3)若A>BOA>B\geqslant OAB=BAAB=BA,則A2B2A^2\geqslant B^2
      證明:與上同理。
      (4)若ABOA\geqslant B\geqslant OAB=BAAB=BA,則A2B2A^2\geqslant B^2
      證明:與上同理。
    • 引理:若B>OB>O,則存在可逆矩陣PP使得PHBP=I,PHAP=ΣP^HBP=I,P^HAP=\Sigma,其中Σ\Sigma爲對角陣
      證明:
      由定理8知,存在可逆矩陣CC使得CHBC=IC^HBC=I。考慮Hermite矩陣CHACC^HAC的一個譜分解CHAC=QΣQHC^HAC=Q\Sigma Q^H,令P=CQP=CQ,則有PHBP=QH(CHBC)Q=I,PHAP=QH(CHAC)Q=ΣP^HBP=Q^H(C^HBC)Q=I,P^HAP=Q^H(C^HAC)Q=\Sigma。得證。
      【注】Σ\Sigma的對角元實際上是廣義特徵值問題Ax=λBxAx=\lambda Bx的特徵值。廣義特徵值這裏不做介紹,感興趣的讀者可參考維基百科
    • 定理30:
      (1)若A>B>OA>B>O,則B1>A1B^{-1}>A^{-1}
      證明:
      由引理知,存在一可逆矩陣RR使得RHAR=Σ,RHBR=IR^HAR=\Sigma,R^HBR=I,其中Σ=diag(λ1,λ2,...,λn)\Sigma=diag(\lambda_1,\lambda_2,...,\lambda_n)
      A>BA>B以及定理28知,RH(AB)R=ΣI>OR^H(A-B)R=\Sigma -I>O。對角矩陣ΣI\Sigma -I的主對角元爲正,故λi>1,i=1,2,...,n\lambda_i >1,i=1,2,...,n1λi1>01-\lambda_i^{-1}>0,進而IΣ1>OI-\Sigma^{-1}>OR(IΣ1)RH=B1A1>OR(I-\Sigma^{-1})R^H=B^{-1}-A^{-1}>O,即B1>A1B^{-1}>A^{-1}
      (2)若AB>OA\geqslant B>O,則B1A1B^{-1}\geqslant A^{-1}
      證明:與上同理。
    • 定理31:若AO,B>OA\geqslant O,B>Oρ()\rho(\bullet)表示譜半徑,則
      (1)B>AB>A的充要條件爲ρ(AB1)<1\rho(AB^{-1})<1
      (2)BAB\geqslant A的充要條件爲ρ(AB1)1\rho(AB^{-1})\leqslant 1
      證明:只證(1),(2)的證明是同理的。
      由引理知,存在一可逆矩陣RR使得RHAR=Σ,RHBR=IR^HAR=\Sigma,R^HBR=I,其中Σ=diag(λ1,λ2,...,λn)\Sigma=diag(\lambda_1,\lambda_2,...,\lambda_n)
      由定理28知B>A    RHBR>RHAR    I>Σ    ρ(Σ)<1B>A\iff R^HBR>R^HAR\iff I>\Sigma\iff\rho(\Sigma)<1。計算可得AB1=(RH)1ΣRHAB^{-1}=(R^H)^{-1}\Sigma R^H,即AB1AB^{-1}Σ\Sigma相似,有ρ(AB1)=ρ(Σ)\rho(AB^{-1})=\rho(\Sigma),故B>A    ρ(AB1)<1B>A\iff\rho(AB^{-1})<1

常用的矩陣不等式舉例

Hermite矩陣的一個不等式
  • 定理32:對任意n階Hermite矩陣AA,有如下矩陣不等式成立:λminIAλmaxI\lambda_{min}I\leqslant A\leqslant\lambda_{max}I其中,λmin\lambda_{min}λmax\lambda_{max}分別是AA的最小特徵值和最大特徵值
    證明:
    AA作譜分解得A=UΣUHA=U\Sigma U^H,其中Σ=diag(λ1,λ2,...,λn)\Sigma=diag(\lambda_1,\lambda_2,...,\lambda_n)。注意到Hermite矩陣AλminI=UΣUHλminI=U(ΣλminI)UH=Udiag(λ1λmin,λ2λmin,...,λnλmin)UHA-\lambda_{min}I=U\Sigma U^H-\lambda_{min}I=U(\Sigma -\lambda_{min}I)U^H=Udiag(\lambda_1-\lambda_{min},\lambda_2-\lambda_{min},...,\lambda_n-\lambda_{min})U^H,其特徵值均非負,故AλminIA-\lambda_{min}I是半正定的,即λminIA\lambda_{min}I\leqslant A。同理可證AλmaxIA\leqslant\lambda_{max}I

下面只是用這個結論解決一下自己在學習凸優化時的疑問,當做一個學習記錄,讀者可選擇性地跳過這一段^_^。

用這個結論解決一下最近學習凸優化過程中遇到的一個問題:無約束凸優化問題的牛頓下降法的二次收斂階段有一個關鍵不等式:在這裏插入圖片描述
它的證明用到如下過程:在這裏插入圖片描述
其中最後一個不等號讓人百思不得其解。最後發現用矩陣不等式就可以得到。先給出牛頓法證明的前提條件:強凸性條件,即對於二階連續可微的凸函數f(x)f(x),其任意點處的Hessian矩陣滿足2f(x)mI\nabla^2f(x)\geqslant mI,其中m>0m>0是一個常數。利用矩陣不等式的結論對上述最後一個不等號進行分析:
由於2f(x)mI>O\nabla^2f(x)\geqslant mI>O,所以O<(2f(x))11mIO<(\nabla^2f(x))^{-1}\leqslant \frac{1}{m}I(定理30)。因爲(2f(x))1(mI)=(mI)(2f(x))1=m(2f(x))1(\nabla^2f(x))^{-1}(mI)=(mI)(\nabla^2f(x))^{-1}=m(\nabla^2f(x))^{-1},所以(2f(x))21m2I(\nabla^2f(x))^{-2}\leqslant\frac{1}{m^2}I(定理29)。於是f(x)T(2f(x))2f(x)f(x)T(1m2I)f(x)=1m2f(x)Tf(x)\nabla f(x)^T(\nabla^2f(x))^{-2}\nabla f(x)\leqslant\nabla f(x)^T(\frac{1}{m^2}I)\nabla f(x)=\frac{1}{m^2}\nabla f(x)^T\nabla f(x)(矩陣不等式的定義與半正定矩陣的定義),故最後一個不等號成立。

分塊矩陣的Schur補定理

該定理在控制理論分析中有重要應用。不過沒想到的是,第一次碰見這個定理是在上《複雜網絡動力學》的時候~作爲一個計算機系學生始終不知道爲什麼要上這種課。。。
證明需要用到分塊矩陣的初等變換,也就是“矩陣打洞法”,不清楚的童鞋請參考鏈接中的初等變換部分。

  • 定理33:設A=[R11R12R21R22]Cn×nA=\begin{bmatrix}R_{11}&R_{12}\\R_{21}&R_{22}\end{bmatrix}\in C^{n\times n}是一個Hermite矩陣,其中R11Cm1×m1R_{11}\in C^{m_1\times m_1}R22Cm2×m2R_{22}\in C^{m_2\times m_2}R12H=R21R_{12}^H=R_{21}m1+m2=nm_1+m_2=n。則有以下結論成立:
    (1)A>OA>O的充要條件爲R11>OR_{11}>OR22R12HR111R12>OR_{22}-R_{12}^HR_{11}^{-1}R_{12}>O
    (2)A>OA>O的充要條件爲R22>OR_{22}>OR11R12HR221R12>OR_{11}-R_{12}^HR_{22}^{-1}R_{12}>O
    證明:只證(1),(2)的證明是類似的。
    充分性:
    R11R_{11}正定知R11R_{11}可逆,故可做如下初等變換:
    A=[R11R12R12HR22]行變換[R11R12OR22R12HR111R12]列變換[R11OOR22R12HR111R12]A=\begin{bmatrix}R_{11}&R_{12}\\R_{12}^H&R_{22}\end{bmatrix}\overset{\text{行變換}}{\rightarrow}\begin{bmatrix}R_{11}&R_{12}\\O&R_{22}-R_{12}^HR_{11}^{-1}R_{12}\end{bmatrix}\overset{\text{列變換}}{\rightarrow}\begin{bmatrix}R_{11}&O\\O&R_{22}-R_{12}^HR_{11}^{-1}R_{12}\end{bmatrix}
    將上述初等變換用分塊初等矩陣寫出就是
    [Im1OR12HR111Im2][R11R12R12HR22][Im1R111R12OIm2]=[R11OOR22R12HR111R12]\begin{bmatrix}I_{m_1}&O\\-R_{12}^HR_{11}^{-1}&I_{m_2}\end{bmatrix}\begin{bmatrix}R_{11}&R_{12}\\R_{12}^H&R_{22}\end{bmatrix}\begin{bmatrix}I_{m_1}&-R_{11}^{-1}R_{12}\\O&I_{m_2}\end{bmatrix}=\begin{bmatrix}R_{11}&O\\O&R_{22}-R_{12}^HR_{11}^{-1}R_{12}\end{bmatrix}
    P=[Im1R111R12OIm2],S=R22R12HR111R12P=\begin{bmatrix}I_{m_1}&-R_{11}^{-1}R_{12}\\O&I_{m_2}\end{bmatrix},S=R_{22}-R_{12}^HR_{11}^{-1}R_{12},則上式即爲
    PHAP=[R11OOS]P^HAP=\begin{bmatrix}R_{11}&O\\O&S\end{bmatrix}由已知及定理23知分塊矩陣PHAPP^HAP是正定的,注意到PP是可逆的,故由定理6知AA是正定的。
    必要性:
    AA正定可知主子矩陣R11R_{11}正定(可參考定理3的必要性的證明),從而R11R_{11}可逆,上述初等變換仍成立。從而由定理23、定理6可知SS是正定的,故R11R_{11}SS均正定。
    【注】R22R12HR111R12R_{22}-R_{12}^HR_{11}^{-1}R_{12}稱爲子塊R11R_{11}Schur補,記作A/R11A/R_{11}R11R12HR221R12R_{11}-R_{12}^HR_{22}^{-1}R_{12}稱爲子塊R22R_{22}Schur補,記作A/R22A/R_{22}

矩陣不等式的一個應用:瑞利商和廣義瑞利商

最近看到LDA(線性判別分析)算法的推導中用到了瑞利商和廣義瑞利商的概念,求它們的最大值或最小值的問題可以用矩陣不等式解決,恰好放在這裏作爲一個應用矩陣不等式和矩陣算數平方根的例子。

瑞麗商
  • 定義:設有Hermite矩陣ACn×nA\in C^{n\times n}和非零向量xCnx\in C^nAAxx的瑞利商R(A,x)R(A,x)定義爲:R(A,x)=xHAxxHxR(A,x)=\frac{x^HAx}{x^Hx}
    【注】實際中遇到的情形往往是實數域下的,AA爲實對稱矩陣,這種情形只是我們接下來討論的結論的一個特例。

接下來討論給定Hermite矩陣AA時,瑞利商的最大值和最小值。
前面提到了,對任意Hermite矩陣AA,有矩陣不等式λminIAλmaxI\lambda_{min}I\leqslant A\leqslant\lambda_{max}I,其中,λmin\lambda_{min}λmax\lambda_{max}分別是AA的最小特徵值和最大特徵值。於是λmin=xH(λminI)xxHxxHAxxHxxH(λmaxI)xxHx=λmax\lambda_{min}=\frac{x^H(\lambda_{min}I)x}{x^Hx}\leqslant\frac{x^HAx}{x^Hx}\leqslant\frac{x^H(\lambda_{max}I)x}{x^Hx}=\lambda_{max}容易驗證當xxAA對應於特徵值λmin\lambda_{min}的一個特徵向量時,瑞利商取得最小值λmin\lambda_{min};同理當xxAA對應於特徵值λmax\lambda_{max}的一個特徵向量時,瑞利商取得最大值λmax\lambda_{max}

廣義瑞麗商
  • 定義:設有Hermite矩陣A,BCn×nA,B\in C^{n\times n}和非零向量xCnx\in C^nA,BA,Bxx的廣義瑞利商R(A,B,x)R(A,B,x)定義爲:R(A,B,x)=xHAxxHBxR(A,B,x)=\frac{x^HAx}{x^HBx}其中,xHBx0x^HBx\neq 0

後文我們將分析得到如下結論:

  • 結論:設Hermite矩陣A,BCn×nA,B\in C^{n\times n},其中BB正定,則λminR(A,B,x)λmax\lambda_{min}\leqslant R(A,B,x)\leqslant \lambda_{max}其中λmin\lambda_{min}λmax\lambda_{max}分別是B1AB^{-1}A的最小特徵值和最大特徵值(也是B12AB12B^{-\frac{1}{2}}AB^{-\frac{1}{2}}的最小特徵值和最大特徵值);
    xxB1AB^{-1}A對應於λmin\lambda_{min}的一個特徵向量時,R(A,B,x)R(A,B,x)取得最小值λmin\lambda_{min}
    xxB1AB^{-1}A對應於λmax\lambda_{max}的一個特徵向量時,R(A,B,x)R(A,B,x)取得最大值λmax\lambda_{max}

以下是分析過程。

根據定義,瑞利商可以視作廣義瑞利商的一個特例(BB取單位矩陣)。而廣義瑞麗商的最值問題可以通過將廣義瑞麗商轉化爲瑞麗商解決
先將廣義瑞麗商等價地寫成R(A,B,x)=xHAxxHxxHBxxHxR(A,B,x)=\frac{\frac{x^HAx}{x^Hx}}{\frac{x^HBx}{x^Hx}}分子和分母分別是一個瑞麗商。注意到分母xHBxxHx\frac{x^HBx}{x^Hx}BB是不定矩陣時可能取到零,而分子xHAxxHx\frac{x^HAx}{x^Hx}無論如何都是有界的(根據瑞麗商的結論),因此當BB是不定矩陣時,R(A,B,x)R(A,B,x)可能取到正無窮或負無窮(即不存在最大值或最小值)。爲使得R(A,B,x)R(A,B,x)有最大值和最小值,我們將BB限定爲正定矩陣或負定矩陣,以保證當x0x\neq 0時,xHBx0x^HBx\neq 0
接下來只討論BB正定的情況,BB負定的情形是類似的。
由前面矩陣算數平方根的結論知,BB存在唯一的算數平方根B12B^{\frac{1}{2}},且B12B^{\frac{1}{2}}是正定的。於是R(A,B,x)R(A,B,x)可以寫成R(A,B,x)=xHAxxHB12B12x=xHAxxH(B12)HB12xR(A,B,x)=\frac{x^HAx}{x^HB^{\frac{1}{2}}B^{\frac{1}{2}}x}=\frac{x^HAx}{x^H(B^{\frac{1}{2}})^HB^{\frac{1}{2}}x}作變量代換y=B12xy=B^{\frac{1}{2}}x,則R(A,B,x)R(A,B,x)可以寫成R(A,B,x)=yH(B12)HAB12yyHy=yHB12AB12yyHy=R(B12AB12,y)R(A,B,x)=\frac{y^H(B^{-\frac{1}{2}})^HAB^{-\frac{1}{2}}y}{y^Hy}=\frac{y^HB^{-\frac{1}{2}}AB^{-\frac{1}{2}}y}{y^Hy}=R(B^{-\frac{1}{2}}AB^{-\frac{1}{2}},y)注意正定陣B12B^\frac{1}{2}是可逆的,因此y=B12xy=B^{\frac{1}{2}}x是等價代換,這就將廣義瑞麗商等價轉換成了瑞麗商。

根據瑞麗商的結論 ,R(A,B,x)R(A,B,x)的最小值和最大值分別爲B12AB12B^{-\frac{1}{2}}AB^{-\frac{1}{2}}的最小特徵值和最大特徵值,且當y=B12xy=B^{\frac{1}{2}}x分別取B12AB12B^{-\frac{1}{2}}AB^{-\frac{1}{2}}對應於最小特徵值的特徵向量和對應於最大特徵值的特徵向量時,R(A,B,x)R(A,B,x)取到最小值和最大值。

因爲矩陣B12AB12B^{-\frac{1}{2}}AB^{-\frac{1}{2}}不易計算(要對B1B^{-1}進行開方),由B12(B12AB12)B12=B1AB^{-\frac{1}{2}}(B^{-\frac{1}{2}}AB^{-\frac{1}{2}})B^{\frac{1}{2}}=B^{-1}AB12AB12B^{-\frac{1}{2}}AB^{-\frac{1}{2}}B1AB^{-1}A是相似的,特徵值相同,而B1AB^{-1}A相對來說更容易計算,故可將上面的結論陳述爲:
R(A,B,x)R(A,B,x)的最小值和最大值分別爲B1AB^{-1}A的最小特徵值和最大特徵值。xx取何值時R(A,B,x)R(A,B,x)取到最小值和最大值呢?
y1y_1B12AB12B^{-\frac{1}{2}}AB^{-\frac{1}{2}}對應於最小特徵值的特徵向量,即B12AB12y1=λminy1B^{-\frac{1}{2}}AB^{-\frac{1}{2}}y_1=\lambda_{min}y_1y10y_1\neq 0。根據變換y=B12xy=B^{\frac{1}{2}}x,將y1=B12x1y_1=B^{\frac{1}{2}}x_1代入上式得B12AB12B12x1=λminB12x1B^{-\frac{1}{2}}AB^{-\frac{1}{2}}B^{\frac{1}{2}}x_1=\lambda_{min}B^{\frac{1}{2}}x_1兩端左乘B12B^{-\frac{1}{2}}B1Ax1=λminx1B^{-1}Ax_1=\lambda_{min}x_1可見x1x_1恰好是B1AB^{-1}A對應於最小特徵值的特徵向量。於是當xxB1AB^{-1}A對應於最小特徵值的特徵向量時,R(A,B,x)R(A,B,x)取到最小值;當xxB1AB^{-1}A對應於最大特徵值的特徵向量時,R(A,B,x)R(A,B,x)取到最大值。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章