矩陣論專欄:專欄(文章按照順序排序)
矩陣的正定性是矩陣理論的基礎,在機器學習的很多算法中都有它的身影。正定矩陣是很基礎的工具,當涉及到諸如協方差矩陣、海森矩陣、不等式時就可能會用到正定性。另外,控制理論、凸優化理論等有線性矩陣不等式的重要應用。研究矩陣正定性用特徵值分解(譜分解)比較方便、自然,本文利用特徵值分解探討正定性的常用結論,並在個人能力範圍內儘量做到全面、清晰。文中如有錯誤,歡迎留言更正。
參考資料:
線性代數基礎知識系列:1、2、3、4、5
矩陣分解—從Schur分解、特徵值分解EVD到奇異值分解SVD(下)
矩陣論(補充知識):特徵多項式的展開式
定理比較多,個人認爲比較重要的結論/定理,都用加粗字體標出。文中定理5和定理25使用了攝動法,有點類似於物理學中的微擾法。當我們研究的某個函數是連續函數時,如果想知道該函數在某一個具體點處的性質,只要給自變量一個微小增量,在該點的“附近”論證性質成立,然後取極限證明該點處性質仍成立。
本文只研究Hermite矩陣/實對稱矩陣的正定性。
- 矩陣的正定性及其性質
- 實正定矩陣
- 一些概念補充(合同、共軛相合、主子式、順序主子式)
- 正定、半正定、負定、半負定的定義
- 判別矩陣正定性的充要條件
- 其他常用的性質
- 矩陣的算數平方根
- 矩陣不等式
- 定義與理解
- 基本性質
- 其他常用性質
- 常用的矩陣不等式舉例
- Hermite矩陣的一個不等式
- 分塊矩陣的Schur補定理
- 矩陣不等式的一個應用:瑞利商與廣義瑞利商
矩陣的正定性及其性質
複習實正定矩陣
- 定義:稱關於n個變量x1,x2,...,xn∈R的二次齊次實係數多項式函數f(x1,x2,...,xn)=∑i=1n∑j=1naijxixj,aij=aji爲一個n元實二次型
- 定義:設有n元實二次型f(x1,x2,...,xn)=∑i=1n∑j=1naijxixj,aij=aji,令x=(x1,x2,...,xn)T,A=(aij)n×n,則該實二次型可被寫成f(x)=xTAx,稱實對稱矩陣A爲二次型f(x)的矩陣,A的秩爲二次型f(x)的秩
- 定義:設f(x)=xTAx是一個n元實二次型,若對∀x∈Rn,x=0有f(x)>0,則稱f爲正定二次型,實對稱矩陣A爲正定矩陣
參照上面的定義,一個n階實對稱矩陣A和相應的二次型xTAx稱爲:
半正定的,若對∀x∈Rn,x=0有xTAx⩾0;
負定的,若對∀x∈Rn,x=0有xTAx<0;
半負定的,若對∀x∈Rn,x=0有xTAx⩽0;
不定的,若xTAx既能取到正值也能取到負值。
實數域下正定矩陣的結論與複數域下正定矩陣的結論是一致的,下面直接討論複數域下的結論。
一些概念補充
- 合同:設A,B爲n階實矩陣,若存在n階可逆實矩陣P使得PTAP=B,則稱A與B合同(或A合同於B),記爲A≃B,並稱A到PTAP的變換爲合同變換
- 共軛相合(也簡稱相合):設A,B∈Cn×n,若存在P∈Cnn×n使得PHAP=B,則稱A共軛相合於B,或A與B共軛相合
實數域下的合同可以看做是複數域下的共軛相合的特例。
- 主子式:設A=(aij)n×n,1⩽i1<i2<⋯<ik⩽n,稱A(i1i1i2i2⋯⋯ikik)=⎣⎢⎢⎡ai1i1ai2i1⋯aiki1ai1i2ai2i2⋯aiki2⋯⋯⋯⋯ai1ikai2ik⋯aikik⎦⎥⎥⎤爲A的一個k階主子矩陣,其行列式爲A的k階主子式
【注】符號A(i1i1i2i2⋯⋯ikik)大括號內的第一行是A的若干行指標(索引),第二行是A的若干列指標(索引),這個符號的整體意思就是取A的第i1,i2,⋯,ik行,與相應的第i1,i2,⋯,ik列,這些行和列交叉位置的元素按照原本的位置關係排列成的新矩陣。這個矩陣是A的子矩陣之一,因爲行指標和列指標相同,所以稱爲主子矩陣。
- 順序主子式:設A=(aij)n×n,稱主子矩陣A(1122⋯⋯kk),k⩽n的行列式爲A的k階順序主子式
正定、半正定、負定、半負定的定義
注意到對於一共軛對稱矩陣A∈Cn×n以及x∈Cn,(xHAx)H=xHAHx=xHAx,即xHAx=xHAx,故xHAx是實數。因而實數域下正定性的概念可直接推廣到複數域上來(實數域下正定性是用xTAx>0定義的,那麼複數域下正定性用xHAx>0來定義):
- 定義:稱關於n個變量x1,x2,...,xn∈C的二次齊次復係數多項式函數f(x1,x2,...,xn)=∑i=1n∑j=1naijxixj,滿足aij=aji,爲一個n元Hermite二次型
- 定義:設有n元二次型f(x1,x2,...,xn)=∑i=1n∑j=1naijxixj,aij=aji,令x=(x1,x2,...,xn)T,A=(aij)n×n,則該二次型可被寫成f(x)=xHAx,稱Hermite矩陣A爲Hermite二次型f(x)的矩陣,A的秩爲Hermite二次型f(x)的秩
- 定義:設f(x)=xHAx是一個n元Hermite二次型,若對∀x∈Cn,x=0有f(x)>0,則稱f爲正定Hermite二次型,Hermite矩陣A爲正定矩陣
參照上面的定義,一個n階共軛對稱矩陣A和相應的二次型xHAx稱爲:
半正定的,若對∀x∈Cn,x=0有xHAx⩾0;
負定的,若對∀x∈Cn,x=0有xHAx<0;
半負定的,若對∀x∈Cn,x=0有xHAx⩽0;
不定的,若xHAx既能取到正值也能取到負值。
判別矩陣正定性的充要條件
對於正定矩陣和半正定矩陣的判定稍微有些差異,下面的結論將正定矩陣和半正定矩陣分開說明。因爲A正定等價於−A負定,A半正定等價於−A半負定,所以(半)負定矩陣的等價條件可由相應的(半)正定矩陣的等價條件得到,本文略去。
以下均設A,B∈Cn×n,A,B均爲共軛對稱矩陣(Hermite矩陣)。
【特徵值判定】
- 定理1:A正定的充要條件爲A的特徵值都大於零
證明:
必要性:設Ax=λx,x=0,即λ是A的任意一個特徵值,x是對應的特徵向量,則xHAx=xHλx=λ∣∣x∣∣22>0,因爲∣∣x∣∣2>0,所以λ>0。
充分性:設A的一個譜分解爲A=UΣUH,其中U=[u1u2⋯un],Σ=diag(λ1,λ2,⋯,λn),則∀x=0,UHx=0,xHAx=(UHx)HΣ(UHx)=∑i=1nλi∣uiHx∣2>0,故A正定。
【推論】若A正定,根據A的行列式等於A的特徵值之積,有det(A)>0,故A可逆
- 定理2:A半正定的充要條件爲A的特徵值都非負
證明:與上同理。
【順序主子式、主子式判定】
-
定理3:A正定的充要條件爲A的所有順序主子式都大於零
證明:
必要性:對任意0=xk∈Ck,有x=[xk0n−k]=0,xHAx=xkHA(1122⋯⋯kk)xk>0,故A(1122⋯⋯kk)正定,其行列式大於零,即A的順序主子式大於零。
充分性:思路是從二次型着手,使用數學歸納法,對n進行歸納(n爲A的階數)。
當n=1時,顯然結論成立。假定結論對n-1成立,現證明結論對n也成立:
設A的Hermite二次型爲f(x)=xHAx=∑i=1n∑j=1naijxixj,0=x∈Cn,由已知aij與aji互爲共軛,且a11>0,故可將f(x)寫成如下形式:f(x)=a111i=1∑na1ixij=1∑na1jxj+i=2∑nj=2∑nbijxixj其中bij=aij−a111a1ia1j,滿足bij=bji。記g(x)=a111∑i=1na1ixi∑j=1na1jxj=a111∣∑j=1na1jxj∣2⩾0。當x1=0且x2=x3=...=xn=0時,f(x)=g(x)=a11∣a11x1∣2>0。如果能夠證明當x2,x3,...,xn不全爲零時,二次型f(x)−g(x)=∑i=2n∑j=2nbijxixj>0,此時就有f(x)=g(x)+(f(x)−g(x))⩾f(x)−g(x)>0。這樣的話∀x=0,都有f(x)>0,於是結論便成立。
現在證明當x2,x3,...,xn不全爲零時,f(x)−g(x)>0。考慮對A的任意k階順序主子式進行如下變換:
![在這裏插入圖片描述]()
由已知Δk>0,a11>0,因此
![在這裏插入圖片描述]()
也就是說,Hermite二次型∑i=2n∑j=2nbijxixj的矩陣(是n-1階的)的任意順序主子式均爲正。由歸納假設知二次型∑i=2n∑j=2nbijxixj是正定的,故當x2,x3,...,xn不全爲零時,∑i=2n∑j=2nbijxixj>0。得證。
-
定理4:A正定的充要條件爲A的所有主子式都大於零
證明:
必要性:設1⩽i1<i2<⋯<ik⩽n,Π={i1,i2,...,ik},對任意0=y∈Ck,構造x∈Cn,其分量xj滿足若j∈/Π,xj=0,若j∈Π,xj=yd,其中j=id,1⩽d⩽k。則xHAx=yHA(i1i1i2i2⋯⋯ikik)y>0,故A(i1i1i2i2⋯⋯ikik)正定,其行列式大於零,即A的主子式大於零。
充分性:A的所有主子式大於零,故A的所有順序主子式大於零,由定理3便知A正定。
-
定理5:A半正定的充要條件爲A的所有主子式都非負
證明:
必要性:與上同理。
充分性:使用攝動法。任取k=1,2,...,n,設Ak=A(1122⋯⋯kk),由已知Ak的所有主子式非負(注意Ak的主子式都是A的主子式)。∀t>0,det(tI+Ak)=tk+p1tk−1+p2tk−2+...+pk−1t+pk,其中係數pi(i=1,2,...,k)是Ak的所有i階主子式之和,有pi⩾0,故det(tI+Ak)⩾tk>0。也就是說tI+A的所有順序主子式大於零,於是根據定理3知道tI+A正定。∀0=x∈Cn,xH(tI+A)x>0,令t→0+就有xHAx⩾0,故A半正定。
【注1】A的全部順序主子式非負並不能保證A是半正定的,例如如下反例:A=⎣⎢⎢⎡0001001001001000⎦⎥⎥⎤其各階順序主子式分別爲0,0,0,1,但存在x=(1,0,0,−1)T,有xTAx=−2<0,故A不是半正定的。
【注2】證明中用到了det(tI+Ak)的展開式,展開式的證明可參考矩陣論(補充知識):特徵多項式的展開式。
【從共軛相合的角度判定】
- 定理6:若A與B相合,則A正定等價於B正定
證明:
由相合的定義,存在可逆矩陣P使得B=PHAP,若A正定,則∀x=0,Px=0,xHBx=(Px)HA(Px)>0,故B正定。同理可證若B正定,則A正定。
- 定理7:若A與B相合,則A半正定等價於B半正定
證明:同上。
- 定理8:A正定的充要條件爲A與同階單位陣相合
證明:
必要性:設A的一個譜分解爲A=UΣUH,Σ=diag(λ1,λ2,⋯,λn),則由A正定知λi>0,i=1,2,...,n。設P=UΣ^−1,其中Σ^=diag(λ1,λ2,⋯,λn),則P可逆,且A=(PPH)−1,PHAP=I,故A與同階單位陣I相合。
充分性:若A與同階單位陣I相合,則存在可逆矩陣P使得PHAP=I,即A=(P−1)HP−1,對∀x=0,P−1x=0,xHAx=(P−1x)H(P−1x)=∣∣P−1x∣∣22>0,故A正定。
- 定理9:A半正定的充要條件爲A與[IrOOO]相合,其中r=r(A)
證明:
必要性:設A的一個譜分解爲A=UΣUH,Σ=diag(λ1,λ2,⋯,λr,0,⋯,0),λi>0,i=1,2,...,r。設P=UΛ−1,其中Λ=diag(λ1,λ2,⋯,λr,1,...,1),則P可逆,且A=(PH)−1[IrOOO]P−1,PHAP=[IrOOO],故A與[IrOOO]相合。
充分性:若A與[IrOOO]相合,則存在可逆矩陣P使得PHAP=[IrOOO],即A=(P−1)H[IrOOO]P−1,對∀x=0,P−1x=0,xHAx=(P−1x)H[IrOOO](P−1x)=∑i=1r∣(P−1x)i∣2⩾0,其中(P−1x)i表示向量P−1x的第i個分量,故A半正定。
【其他充要條件】
- 定理10:A正定的充要條件爲存在同階可逆矩陣C使得A=CHC
證明:顯然這是定理8一個等價表述。
- 定理11:A半正定的充要條件爲存在秩爲r(A)的同階方陣C,使得A=CHC成立
證明:
必要性:設A的一個譜分解爲A=UΣUH,Σ=diag(λ1,λ2,⋯,λr,0,...,0),λi>0,i=1,2,...,r,r=r(A)。設C=(UΣ^)H,其中Σ^=diag(λ1,λ2,⋯,λr,0,..,0),則r(C)=r(A),且A=CHC。
充分性:若A=CHC,則∀x=0,xHAx=(Cx)H(Cx)=∣∣Cx∣∣22⩾0,故A半正定。
- 定理12:A正定的充要條件爲存在列滿秩矩陣P使得A=PHP
必要性:與上同理。
充分性:若A=PHP,則∀x=0,由P列滿秩知Px=0(否則由P列滿秩知其左僞逆L=(PHP)−1PH存在,Px=0⇒x=LPx=0,矛盾),xHAx=(Px)H(Px)=∣∣Px∣∣22>0,故A正定。
- 定理13:A半正定的充要條件爲存在秩爲r(A)的矩陣P,使得A=PHP成立
證明:與上同理。
- 定理14:A正定的充要條件爲存在同階正定矩陣C使得A=C2
證明:
必要性:設A的一個譜分解爲A=UΣUH,Σ=diag(λ1,λ2,⋯,λn),則由A正定知λi>0,i=1,2,...,n。設C=UΣ^UH,其中Σ^=diag(λ1,λ2,⋯,λn),則由C共軛對稱且特徵值都大於零知C是正定矩陣,且驗證可知A=C2成立。
充分性:若A=C2,由C正定知C可逆,故∀x=0,有Cx=0,xHAx=xHCCx=xHCHCx=∣∣Cx∣∣22>0,故A正定。
- 定理15:A半正定的充要條件爲存在同階半正定矩陣C使得A=C2
證明:與上同理。
- 定理16:A正定的充要條件爲存在同階可逆的Hermite矩陣C使得A=C2
證明:與上同理。
- 定理17:A半正定的充要條件爲存在同階Hermite矩陣C使得A=C2
證明:與上同理。
其他性質
以下均設A,B∈Cn×n,A,B均爲共軛對稱矩陣(Hermite矩陣)。
-
定理18:
(1)若A正定,則PHAP正定的充要條件爲P列滿秩
證明:
因A正定,根據定理10知存在可逆矩陣C使得A=CHC。
必要性:由PHAP=(CP)H(CP)正定知(CP)H(CP)滿秩,而r(CP)=r((CP)H(CP)),所以CP列滿秩,所以P列滿秩。
充分性:由P列滿秩知CP列滿秩,故存在列滿秩矩陣CP使得PHAP=(CP)H(CP),由定理12知PHAP正定。
(2)若A半正定,則PHAP半正定,其中矩陣P任取
證明:
因A半正定,根據定理11知存在方陣C使得A=CHC,PHAP=(CP)H(CP)。∀x∈Cn,xHPHAPx=∣∣CPx∣∣22⩾0,故PHAP半正定。
-
定理19:
(1)若A正定,則A的主對角元均爲正實數
證明:對i=1,2...,n,取單位矩陣的第i列ei,有eiHAei=aii>0。
【注】實際上,A的主對角元都是A的主子式,故定理4蘊含了A的主對角元都大於零這一事實。
(2)若A半正定,則A的主對角元均爲非負實數
證明:與上同理。
-
定理20:(用定義驗證即可)
(1)若A正定,常數k>0,則kA正定
(2)若A半正定,常數k⩾0,則kA半正定
-
定理21:(用定義驗證即可)
(1)若A,B均正定,則A+B正定
(2)若A正定,B半正定,則A+B正定
(3)若A,B均半正定,則A+B半正定
-
定理22:
(1)若A正定,則A−1也正定
證明:因爲A是Hermite的,所以A−1也是Hermite的。∀x=0,有A−1x=0,xHA−1x=xHA−1AA−1x=(A−1x)HA(A−1x)>0,故A−1正定。
(2)若A半正定,則A+也半正定,其中A+是A的Penrose-Moore逆
證明:設A的一個譜分解爲A=UΣUH,Σ=diag(λ1,λ2,⋯,λr,0,...,0),λi>0,i=1,2,...,r,易驗證A+=UΣ+UH,其中Σ+=diag(λ1−1,λ2−1,⋯,λr−1,0,...,0),可見A+是特徵值均非負的Hermite矩陣,故A+半正定。
-
定理23:
(1)A∈Cn×n、B∈Cm×m均正定的充要條件爲[AOOB]正定
證明:
必要性:[AOOB]顯然Hermite。∀0=z∈Cn+m,z=[xy],x∈Cn,y∈Cm,則x,y至少有一個不爲零,故zH[AOOB]z=xHAx+yHBy>0,故[AOOB]正定。
充分性:設P=[IO],顯然P列滿秩,於是由定理18知A=PH[AOOB]P正定。同理,設Q=[OI],Q列滿秩,B=QH[AOOB]Q正定。
(2)A∈Cn×n、B∈Cm×m均半正定的充要條件爲[AOOB]半正定
證明:
必要性:[AOOB]顯然Hermite。z∈Cn+m,z=[xy],x∈Cn,y∈Cm,zH[AOOB]z=xHAx+yHBy⩾0,故[AOOB]半正定。
充分性:設P=[IO],故由定理18知A=PH[AOOB]P半正定。同理,設Q=[OI],B=QH[AOOB]Q半正定。
-
定理24:
(1)設A爲一Hermite矩陣,存在t∈R,使得∀s>t有sI+A正定
證明:
因A共軛對稱,故可設A的一個譜分解爲A=UΣUH,Σ=diag(λ1,λ2,⋯,λn),λi均爲實數。tI+A=U(tI+Σ)UH,故只要取t=−min{λ1,λ2,...,λn},∀s>t,sI+A的特徵值就都爲正,故sI+A正定。
(2)若A半正定,則∀s>0,sI+A正定
證明:在(1)的證明中取t=0即可。
-
定理25:
(1)若A,B均正定,且AB=BA,則AB正定
證明:
由(AB)H=(BA)H=AHBH=AB知AB是共軛對稱的。
因A正定,由定理14知存在同階正定矩陣C使得A=C2,C可逆,C−1ABC=CBC,即AB與CBC相似,故它們的特徵值相同。由CBC=CHBC,故CBC與B相合,由B正定及定理6知CBC正定,故CBC的特徵值均爲正,進而AB的特徵值均爲正,故AB正定。
(2)若A正定,B半正定,且AB=BA,則AB半正定
證明:與上同理。
(3)若A,B均半正定,且AB=BA,則AB半正定
證明:使用攝動法。
由(AB)H=(BA)H=AHBH=AB知AB是共軛對稱的。
∀t>0,tI+A正定,又(tI+A)B=B(tI+A),故由(2)知(tI+A)B半正定。故∀x∈Cn,xH(tI+A)Bx⩾0,即txHBx+xHABx⩾0,∀t>0。令t→0+就有xHABx⩾0。注意到x是任取的,故AB半正定。
矩陣的算數平方根
存在性與唯一性
那天看到二次範數的概念:設P正定,∣∣x∣∣P=∣∣P−21x∣∣2,很好奇這個P−21是什麼。在網上查了下資料,其實與非負實數的算數平方根是類似的。設P−1=Udiag(λ1,λ2,...,λn)UH,,則C=Udiag(λ1,λ2,...,λn)UH滿足C2=P−1(定理14的結論)。問題在於滿足C2=P−1的C是否是唯一的?如果C不唯一,顯然P−21這樣的表示是不合理的,因爲會產生歧義。事實上,C是唯一的,下面就來看看爲什麼:
- 定義:設有n階方陣A,若存在n階方陣B使得A=B2,則稱B是A的一個平方根
- 定義:設有n階半正定矩陣A,若存在n階半正定矩陣B使得A=B2,則稱B是A的一個算數平方根
- 引理:設n階共軛對稱矩陣A,B有相同的特徵值,且任取它們的一個特徵值λ,A的特徵子空間N(λI−A)與B特徵子空間N(λI−B)相同,即N(λI−A)=N(λI−B),那麼A=B成立。
證明:
設A的一個譜分解爲A=PΣPH,Σ=diag(λ1,λ2,...,λn),P=[p1p2⋯pn]。根據已知條件,P的任意一列pi也是B對應於λi的特徵向量。則PHBP=⎣⎢⎢⎡p1Hp2H⋯pnH⎦⎥⎥⎤B[p1p2⋯pn]=⎣⎢⎢⎡p1Hp2H⋯pnH⎦⎥⎥⎤[λ1p1λ2p2⋯λnpn]=diag(λ1,λ2,...,λn)故B=PΣPH=A。
- 定理26:任意半正定矩陣A有唯一的算數平方根
證明:
存在性根據定理14得到。現證明唯一性:
設有半正定矩陣B,C滿足A=B2=C2。設B的譜分解爲B=PΣPH,其中Σ=diag(λ1,λ2,...,λn),0⩽λ1⩽λ2⩽⋯⩽λn。則B2=PΣ2PH=A,這是A的一個譜分解,說明∀i=1,2,...,n有N(λiI−B)=N(λi2I−A)。同理,設C的譜分解爲C=QΣ^QH,其中Σ^=diag(λ^1,λ^2,...,λ^n),0⩽λ^1⩽λ^2⩽⋯⩽λ^n。則C2=QΣ^2QH=A,這是A的一個譜分解,說明∀i=1,2,...,n有N(λ^iI−C)=N(λ^i2I−A)。
注意到Σ2和Σ^2的主對角線上都是將A的特徵值從小到大排列,因此有Σ2=Σ^2,故∀i=1,2,...,n有λi2=λ^i2,即λi=λ^i(注意,半正定矩陣的特徵值非負)。結合前面的討論,∀i=1,2,...,n有N(λiI−B)=N(λi2I−A)=N(λ^i2I−A)=N(λ^iI−C),於是根據引理的結論必有B=C。
由算數平方根的存在性與唯一性,我們可以引入記號A21(或A)表示半正定矩陣A的算數平方根。
- 推論:任意正定矩陣A有唯一的算數平方根A21,且A21是正定的
推廣:矩陣的有理數次冪
對上述結論稍作推廣,使用完全相同的證明方式就可以得到如下結論:
- 定理27:設有n階(半)正定矩陣A,對任意正整數k,存在唯一的(半)正定矩陣B使得A=Bk,記作B=Ak1
這說明半正定矩陣可以開任意正整數次方。再進一步,我們很容易據此定義出半正定矩陣的任意正有理數次方:設α=qp>0爲有理數,其中p,q爲互質正整數,則半正定矩陣A的α次方Aα定義爲Aα=(Ap)q1。注意(Aq1)pq=((Aq1)q)p=Ap,兩邊同時開q次方就有(Aq1)p=(Ap)q1,因此Aα=(Ap)q1=(Aq1)p。
可以驗證半正定矩陣的正有理數次冪運算有如下運算律:(以下設A和B是同階半正定矩陣,α,β>0是正有理數)
- Aα+β=AαAβ
- Aαβ=(Aα)β=(Aβ)α
- (UAUH)α=UAαUH,其中U是與A同階的酋矩陣
如果A和B可交換(即滿足AB=BA),根據一些深入的分析可以知道A和B可以同時酋對角化(關於這一點可以參考Roger A Horn的《矩陣分析》),於是有如下運算律
- (AB)α=AαBα
【注】這裏簡要地證明一下:設A,B的譜分解爲A=UΣ1UH,B=UΣ2UH,則(AB)α=(UΣ1Σ2UH)α=U(Σ1Σ2)αUH=UΣ1αΣ2αUH=(UΣ1αUH)(UΣ2αUH)=(UΣ1UH)α(UΣ2UH)α=AαBα
如果A正定,根據定理22知A−1也正定,於是可以推廣到正定矩陣的任意有理數次冪:
- 當有理數α>0時,A−α=(A−1)α
可見半正定矩陣的有理數次冪與實數的冪的性質十分相似。下面從另一個角度考慮Hermite矩陣與實數之間的關係。
實數之間是可以比大小的(實數集上的大小關係是一個全序關係),那我們自然要問,矩陣是否可以比大小?實際上,我們可以利用半正定矩陣可以定義出Hermite矩陣集合上的一個偏序關係,然而,這樣定義出來的偏序關係並不是全序關係。也就是說,Hermite矩陣之間不一定能比大小,但如果兩個Hermite矩陣可以比大小,那麼它們之間的關係就很像兩個實數之間的關係,就會有很多類似的性質。下面就介紹Hermite矩陣集上的這個偏序關係:線性矩陣不等式。
矩陣不等式
- 定義:設A,B爲同階共軛對稱矩陣(Hermite矩陣),若A−B是正定的,則記A>B;若A−B是半正定的,則記A⩾B
【注1】只要有>和⩾就夠了,不過也可以引入<和⩽
【注2】依照上面的定義,Hernite矩陣A正定就是A>O,Hermite矩陣半正定就是A⩾O
【注3】⩾滿足自反性、反對稱性以及傳遞性(見下文),因此根據偏序關係的定義(參考鏈接),⩾定義了Hermite矩陣集上的一個偏序關係。
以下均設A,B,C,D爲同階Hermite矩陣。
【注】類比實數比大小的性質,下面的性質就比較直觀了。
- 基本性質(以下只討論⩾,>的討論是類似的)
- 自反性:A⩾A
(這是因爲A−A=O是半正定的)
- 反對稱性:若A⩾B且B⩾A,則A=B
證:
由已知A−B既半正定又半負定,它的任意特徵值既不小於零又不大於零,只能爲零。A−B是Hermite矩陣,可作譜分解A−B=UΣUH,對角陣Σ對角線上全爲零,故A−B=O,A=B。
- 傳遞性:若A⩾B,B⩾C,則A⩾C
證:
由已知A−B和B−C半正定,於是∀x=0有xH(A−B)x⩾0且xH(B−C)x⩾0,xH(A−C)x=xH(A−B)x+xH(B−C)x⩾0,故A⩾C。
- 線性性:若A⩾B,實數k⩾0,則kA⩾kB
- 可加性:若A⩾B,C⩾D,則A+C⩾B+D
證明:
由已知A−B,C−D半正定,故(A+C)−(B+D)=(A−B)+(C−D)半正定,即A+C⩾B+D。
- 其他常用性質
- 定理28:
(1)設P列滿秩,則A>B⟺PHAP>PHBP
證明:根據定理18可得。
(2)若A⩾B,則任意矩陣P有PHAP⩾PHBP
證明:根據定理18可得。
(3)設有可逆矩陣P,則A>B(A⩾B)的充要條件爲PHAP>PHBP(PHAP⩾PHBP)
證明:根據定理6和定理7可得。
- 定理29:
(1)若A>B>O且AB=BA,則A2>B2
證明:
因AB=BA,故A2−B2=(A−B)(A+B)=(A+B)(A−B)。由A>B>O得A−B>O,A+B>O,根據定理25知A2−B2=(A−B)(A+B)>O。
(2)若A⩾B>O且AB=BA,則A2⩾B2。
證明:
因AB=BA,故A2−B2=(A−B)(A+B)=(A+B)(A−B)。由A⩾B>O得A−B⩾O,A+B>O,根據定理25知A2−B2=(A−B)(A+B)⩾O。
(3)若A>B⩾O且AB=BA,則A2⩾B2
證明:與上同理。
(4)若A⩾B⩾O且AB=BA,則A2⩾B2
證明:與上同理。
- 引理:若B>O,則存在可逆矩陣P使得PHBP=I,PHAP=Σ,其中Σ爲對角陣
證明:
由定理8知,存在可逆矩陣C使得CHBC=I。考慮Hermite矩陣CHAC的一個譜分解CHAC=QΣQH,令P=CQ,則有PHBP=QH(CHBC)Q=I,PHAP=QH(CHAC)Q=Σ。得證。
【注】Σ的對角元實際上是廣義特徵值問題Ax=λBx的特徵值。廣義特徵值這裏不做介紹,感興趣的讀者可參考維基百科。
- 定理30:
(1)若A>B>O,則B−1>A−1
證明:
由引理知,存在一可逆矩陣R使得RHAR=Σ,RHBR=I,其中Σ=diag(λ1,λ2,...,λn)。
由A>B以及定理28知,RH(A−B)R=Σ−I>O。對角矩陣Σ−I的主對角元爲正,故λi>1,i=1,2,...,n,1−λi−1>0,進而I−Σ−1>O,R(I−Σ−1)RH=B−1−A−1>O,即B−1>A−1。
(2)若A⩾B>O,則B−1⩾A−1
證明:與上同理。
- 定理31:若A⩾O,B>O,ρ(∙)表示譜半徑,則
(1)B>A的充要條件爲ρ(AB−1)<1
(2)B⩾A的充要條件爲ρ(AB−1)⩽1
證明:只證(1),(2)的證明是同理的。
由引理知,存在一可逆矩陣R使得RHAR=Σ,RHBR=I,其中Σ=diag(λ1,λ2,...,λn)。
由定理28知B>A⟺RHBR>RHAR⟺I>Σ⟺ρ(Σ)<1。計算可得AB−1=(RH)−1ΣRH,即AB−1與Σ相似,有ρ(AB−1)=ρ(Σ),故B>A⟺ρ(AB−1)<1。
常用的矩陣不等式舉例
Hermite矩陣的一個不等式
- 定理32:對任意n階Hermite矩陣A,有如下矩陣不等式成立:λminI⩽A⩽λmaxI其中,λmin和λmax分別是A的最小特徵值和最大特徵值
證明:
對A作譜分解得A=UΣUH,其中Σ=diag(λ1,λ2,...,λn)。注意到Hermite矩陣A−λminI=UΣUH−λminI=U(Σ−λminI)UH=Udiag(λ1−λmin,λ2−λmin,...,λn−λmin)UH,其特徵值均非負,故A−λminI是半正定的,即λminI⩽A。同理可證A⩽λmaxI。
下面只是用這個結論解決一下自己在學習凸優化時的疑問,當做一個學習記錄,讀者可選擇性地跳過這一段^_^。
用這個結論解決一下最近學習凸優化過程中遇到的一個問題:無約束凸優化問題的牛頓下降法的二次收斂階段有一個關鍵不等式:![在這裏插入圖片描述]()
它的證明用到如下過程:![在這裏插入圖片描述]()
其中最後一個不等號讓人百思不得其解。最後發現用矩陣不等式就可以得到。先給出牛頓法證明的前提條件:強凸性條件,即對於二階連續可微的凸函數f(x),其任意點處的Hessian矩陣滿足∇2f(x)⩾mI,其中m>0是一個常數。利用矩陣不等式的結論對上述最後一個不等號進行分析:
由於∇2f(x)⩾mI>O,所以O<(∇2f(x))−1⩽m1I(定理30)。因爲(∇2f(x))−1(mI)=(mI)(∇2f(x))−1=m(∇2f(x))−1,所以(∇2f(x))−2⩽m21I(定理29)。於是∇f(x)T(∇2f(x))−2∇f(x)⩽∇f(x)T(m21I)∇f(x)=m21∇f(x)T∇f(x)(矩陣不等式的定義與半正定矩陣的定義),故最後一個不等號成立。
分塊矩陣的Schur補定理
該定理在控制理論分析中有重要應用。不過沒想到的是,第一次碰見這個定理是在上《複雜網絡動力學》的時候~作爲一個計算機系學生始終不知道爲什麼要上這種課。。。
證明需要用到分塊矩陣的初等變換,也就是“矩陣打洞法”,不清楚的童鞋請參考鏈接中的初等變換部分。
- 定理33:設A=[R11R21R12R22]∈Cn×n是一個Hermite矩陣,其中R11∈Cm1×m1,R22∈Cm2×m2,R12H=R21,m1+m2=n。則有以下結論成立:
(1)A>O的充要條件爲R11>O且R22−R12HR11−1R12>O
(2)A>O的充要條件爲R22>O且R11−R12HR22−1R12>O
證明:只證(1),(2)的證明是類似的。
充分性:
由R11正定知R11可逆,故可做如下初等變換:
A=[R11R12HR12R22]→行變換[R11OR12R22−R12HR11−1R12]→列變換[R11OOR22−R12HR11−1R12]
將上述初等變換用分塊初等矩陣寫出就是
[Im1−R12HR11−1OIm2][R11R12HR12R22][Im1O−R11−1R12Im2]=[R11OOR22−R12HR11−1R12]
令P=[Im1O−R11−1R12Im2],S=R22−R12HR11−1R12,則上式即爲
PHAP=[R11OOS]由已知及定理23知分塊矩陣PHAP是正定的,注意到P是可逆的,故由定理6知A是正定的。
必要性:
由A正定可知主子矩陣R11正定(可參考定理3的必要性的證明),從而R11可逆,上述初等變換仍成立。從而由定理23、定理6可知S是正定的,故R11和S均正定。
【注】R22−R12HR11−1R12稱爲子塊R11的Schur補,記作A/R11。R11−R12HR22−1R12稱爲子塊R22的Schur補,記作A/R22。
矩陣不等式的一個應用:瑞利商和廣義瑞利商
最近看到LDA(線性判別分析)算法的推導中用到了瑞利商和廣義瑞利商的概念,求它們的最大值或最小值的問題可以用矩陣不等式解決,恰好放在這裏作爲一個應用矩陣不等式和矩陣算數平方根的例子。
瑞麗商
- 定義:設有Hermite矩陣A∈Cn×n和非零向量x∈Cn,A和x的瑞利商R(A,x)定義爲:R(A,x)=xHxxHAx
【注】實際中遇到的情形往往是實數域下的,A爲實對稱矩陣,這種情形只是我們接下來討論的結論的一個特例。
接下來討論給定Hermite矩陣A時,瑞利商的最大值和最小值。
前面提到了,對任意Hermite矩陣A,有矩陣不等式λminI⩽A⩽λmaxI,其中,λmin和λmax分別是A的最小特徵值和最大特徵值。於是λmin=xHxxH(λminI)x⩽xHxxHAx⩽xHxxH(λmaxI)x=λmax容易驗證當x取A對應於特徵值λmin的一個特徵向量時,瑞利商取得最小值λmin;同理當x取A對應於特徵值λmax的一個特徵向量時,瑞利商取得最大值λmax。
廣義瑞麗商
- 定義:設有Hermite矩陣A,B∈Cn×n和非零向量x∈Cn,A,B和x的廣義瑞利商R(A,B,x)定義爲:R(A,B,x)=xHBxxHAx其中,xHBx=0。
後文我們將分析得到如下結論:
- 結論:設Hermite矩陣A,B∈Cn×n,其中B正定,則λmin⩽R(A,B,x)⩽λmax其中λmin和λmax分別是B−1A的最小特徵值和最大特徵值(也是B−21AB−21的最小特徵值和最大特徵值);
當x取B−1A對應於λmin的一個特徵向量時,R(A,B,x)取得最小值λmin;
當x取B−1A對應於λmax的一個特徵向量時,R(A,B,x)取得最大值λmax。
以下是分析過程。
根據定義,瑞利商可以視作廣義瑞利商的一個特例(B取單位矩陣)。而廣義瑞麗商的最值問題可以通過將廣義瑞麗商轉化爲瑞麗商解決。
先將廣義瑞麗商等價地寫成R(A,B,x)=xHxxHBxxHxxHAx分子和分母分別是一個瑞麗商。注意到分母xHxxHBx當B是不定矩陣時可能取到零,而分子xHxxHAx無論如何都是有界的(根據瑞麗商的結論),因此當B是不定矩陣時,R(A,B,x)可能取到正無窮或負無窮(即不存在最大值或最小值)。爲使得R(A,B,x)有最大值和最小值,我們將B限定爲正定矩陣或負定矩陣,以保證當x=0時,xHBx=0。
接下來只討論B正定的情況,B負定的情形是類似的。
由前面矩陣算數平方根的結論知,B存在唯一的算數平方根B21,且B21是正定的。於是R(A,B,x)可以寫成R(A,B,x)=xHB21B21xxHAx=xH(B21)HB21xxHAx作變量代換y=B21x,則R(A,B,x)可以寫成R(A,B,x)=yHyyH(B−21)HAB−21y=yHyyHB−21AB−21y=R(B−21AB−21,y)注意正定陣B21是可逆的,因此y=B21x是等價代換,這就將廣義瑞麗商等價轉換成了瑞麗商。
根據瑞麗商的結論 ,R(A,B,x)的最小值和最大值分別爲B−21AB−21的最小特徵值和最大特徵值,且當y=B21x分別取B−21AB−21對應於最小特徵值的特徵向量和對應於最大特徵值的特徵向量時,R(A,B,x)取到最小值和最大值。
因爲矩陣B−21AB−21不易計算(要對B−1進行開方),由B−21(B−21AB−21)B21=B−1A知B−21AB−21和B−1A是相似的,特徵值相同,而B−1A相對來說更容易計算,故可將上面的結論陳述爲:
R(A,B,x)的最小值和最大值分別爲B−1A的最小特徵值和最大特徵值。x取何值時R(A,B,x)取到最小值和最大值呢?
設y1是B−21AB−21對應於最小特徵值的特徵向量,即B−21AB−21y1=λminy1且y1=0。根據變換y=B21x,將y1=B21x1代入上式得B−21AB−21B21x1=λminB21x1兩端左乘B−21得B−1Ax1=λminx1可見x1恰好是B−1A對應於最小特徵值的特徵向量。於是當x取B−1A對應於最小特徵值的特徵向量時,R(A,B,x)取到最小值;當x取B−1A對應於最大特徵值的特徵向量時,R(A,B,x)取到最大值。