前言:這篇blog是《
Linear Algebra and Its Applications》第五章的一些學習筆記。
第五章 特徵值與特徵向量
1.特徵值與特徵向量
對方陣An×n,其特徵方程表示爲Ax=λx (x̸=0)其中λ是標量,也叫特徵值(特徵根,本徵值),x是向量,也叫特徵向量。
其幾何意義:特徵向量的方向是一個特殊的方向,在這個方向上進行矩陣A的線性變換,等於在這個方向伸縮λ倍。
方陣一定有特徵值,因爲方陣的特徵多項式在複數域內一定能分解成一次因式,但是方陣不一定有實特徵值。
1.1. 求解特徵值與特徵向量
求解(A−λI)x=0要求x在A−λI的零空間上,所以零空間不爲0,所以det(A−λI)=0求解該方程即可得到特徵值λ,把λ代回(A−λI)x=0求解該方程得到特徵向量x。
1.2. 性質
假設An×n={aij}有特徵值λn與特徵向量xn,則∣∣∣∣∣∣∣∣a11−λ aij a22−λ … aij ann−λ∣∣∣∣∣∣∣∣=(λ1−λ)(λ2−λ)…(λn−λ)
下面證明性質會用到上式。
性質一:λ1⋅λ2⋅λ3…λn=det(A)
證明:把λ=0代入上式即可證明。
性質二:λ1+λ2+λ3+⋯+λn=Tr(A)=a11+a22+⋯+ann
證明:假設把上式等號左右展開,看λn−1項的係數,左邊=(−1)n−1(a11+a22+⋯+ann)λn−1=右邊=(−1)n−1(λ1+λ2+⋯+λn)λn−1,證畢。
性質三:f(A)的特徵值是f(λi),f(⋅)是多項式函數
證明:f(A)=anAn+an−1An−1+⋯+a1A+a0兩邊右乘特徵向量x。
f(A)x=anAnx+an−1An−1x+⋯+a2A2x+a1Ax+a0x=anλAn−1x+an−1λAn−2x+⋯+a2λAx+a1λx+a0x=anλ2An−2x+an−1λ2An−3x+⋯+a2λ2x+a1λx+a0x…=anλnx+an−1λn−1x+⋯+a2λ2x+a1λx+a0x=f(λ)x
性質四:不同特徵根對應特徵向量一定線性無關。
證明:設λ1的一個特徵向量x1,λ2的一個特徵向量x2,λ1̸=λ2。
令c1x1+c2x2=0(1)(1)左乘A得c1Ax1+c2Ax2=c1λ1x1+c2λ2x2=0(2)
(1)左乘λ1得c1λ1x1+c2λ1x2=0(3)
(2)-(3)得c2(λ2−λ1)x2=0,由於λ2̸=λ1,x2̸=0,故c2=0,重複上面方法,消去c2,可得c1=0,故(1)式子成立一定有c1=c2=0,所以x1,x2線性無關。
性質五:Hamilton-Cayley定理,設f(λ)=∣λE−A∣=λn+b1λn−1+⋯+bn−1λ+bn則f(A)=∣λE−A∣=An+b1An−1+⋯+bn−1A+bnE=0
2. 特徵值分解
2.1. 特徵值分解:
設A的特徵值爲λn,特徵向量爲xn,令Λ=⎣⎢⎢⎡λ1 0 λ2 … 0 λn⎦⎥⎥⎤
S=⎣⎡∣x1∣∣x2∣ … ∣xn∣⎦⎤
則 A⋅S=(A⋅x1,A⋅x2,…,A⋅xn)=(λ1⋅x1,λ2⋅x2,…,λn⋅xn)=S⋅Λ
如果S可逆,則A=SΛS−1
這就把A矩陣分解成對角矩陣,但是要求S可逆,等價於要求S的列向量線性無關,等價於要求 A至少有n個線性無關的特徵向量,我們需要把這n個線性無關的特徵向量放到S的列向量。
根據1.2.的性質四,我們知道不同特徵根的特徵向量一定線性無關,所以如果我們知道A有n個不同的特徵根λ,則A一定可以進行特徵值分解,若存在特徵根一樣的情況,特徵向量是否線性無關要具體分析,也有可能有n個線性無關的特徵向量,例如下面的矩陣就可以進行特徵值分解。⎣⎡000000000⎦⎤下面的矩陣不可以進行特徵值分解。
⎣⎡000100000⎦⎤⎣⎡000100010⎦⎤
如果你知道Jordan標準型(後面會講),就會很清楚這一點。
2.2. 特徵值分解應用:差分方程
如果A可以進行特徵值分解A=SΛS−1,則AK=SΛkS−1,Λ是對角矩陣,所以其k次方就是對角線元素分別取k次方。
知道這個前提後,假設我們要求解斐波那契數列,Fk=Fk+1+Fk+2,F0=0,F1=1,如果我們想求Fn的值,構造uk=(Fk+1Fk)則uk+1=(Fk+2Fk+1)=(Fk+1+FkFk+1)=(1110)(Fk+1Fk)=A⋅uk
所以uk=Auk−1=A2uk−2=⋯=Aku0=SΛkS−1u0其中u0=(F1F0)=(10)我們在求得un=SΛnS−1u0後,取un的第二個元素即是Fn的值。
2.2.1. 重要差分方程:Markov方陣
如果A是Markov方陣(狀態轉移矩陣),則A={aij}n×n滿足,i=1∑naik=1,0≤aik≥1,aij表示從狀態j轉移到狀態i的轉移概率。以二階爲例,假如我們知道一個初始狀態[X0Y0]
且知道Markov方陣(狀態轉移矩陣)A=[a00a10a01a11]則我們可以知道下一時刻的狀態爲:A[X0Y0]=[a00a10a01a11][X0Y0]=[X0a00+Y0a01Y0a10+Y0a11]=[X1Y1]
具體例子可以看blog,這樣能夠更好理解,這裏暫時不講。
Markov方陣一定有特徵根1,且λ=1對應穩態,λ<1對應暫態,如果λ=1是重根,則有多個穩態,最終的穩態是是這些穩態的線性組合。
2.3. 特徵值分解應用:微分方程
對於帶有方陣的微分方程∂t∂u=Au注意這裏的方陣A是作爲係數,和對矩陣求導不一樣。如果我們要求的是不帶方陣的,我們知道的微分方程∂x∂y=ay,則我們可以猜到結果是y=c⋅eax,c是常數,同理我們猜測帶有方陣的微分方程的解是u(t)=eAt⋅u(0),向量u(0)是一個初值,和常數c的作用類似,我們對eAt進行泰勒展開(矩陣的很多運算可以類比標量的運算,但不是全部,泰勒展開就是可以類比的)eAt=I+At+2!(At)2+3!(At)3+…=S(I+Λt+2!(Λt)2+3!(Λt)3+…)S−1=SeΛtS−1=S⎣⎢⎢⎡eλ1t0eλ2t…0eλnt⎦⎥⎥⎤S−1
所以微分方程的解是u(t)=SeΛtS−1u(0)=i=1∑Ncieλtxi
其中c=S−1u(0),ci是c的第i個元素,xi是S中第i個列向量,也是λi對應的特徵向量。
例如我們想求解微分方程y′′′−3y′′+2y′=0則我們可以構造如下的矩陣微分方程u′=⎣⎡y′′′y′′y′⎦⎤=⎣⎡310−201000⎦⎤⎣⎡y′′y′y⎦⎤=Au
我們進一步討論微分方程,在t→∞時的穩定性,我們知道微分方程的解可以表示成u(t)=i=1∑Ncieλtxi=c1eλtx1+c2eλtx2+…cneλtxn。所以微分方程的解有如下三種情況:
情況一:如果所有λi的實部小於0,則u(t)穩定到0;
情況二:如果λ1的實部等於0,其餘λi的實部小於0,則u(t)穩定到c1x1;
情況三:如果任一λi的實部大於0,則u(t)發散;
特別的,對於2×2方陣A,由於其特徵方程det(A−λI)=λ2−Trace(A)λ+det(A)
要求其跡Trace(A)<0,行列式det(A)>0,A構成的微分方程∂t∂u=Au的解才穩定。
3. 複數矩陣
複數矩陣就是元素含有複數的矩陣。在複數域,相當於把實數域的轉置T操作,變成了複數域的厄米H操作,厄米操作就是對矩陣求共軛轉置。
類比轉置操作,厄米操作有如下性質:
性質一:如果復向量x,y正交,則xHy=0;
性質二:復向量內積,∣∣x∣∣2=xHx=∣x1∣2+∣x1∣2+…
性質三:對復矩陣A,B,則(AB)H=BHAH
複數矩陣最有名的應用,就是FFT(快速傅里葉變換)。
3.1. 三個典型的複數矩陣
複數域:厄米矩陣A: A=AH,反厄米矩陣A: A=−AH,酉矩陣U: UUH=I
對應實數域:實對稱矩陣A: A=AT,反實對稱矩陣A: A=−AT,正交矩陣Q: QQT=I
4. 相似變換
對於方陣A,B,如果存在可逆矩陣M,使得B=M−1AM則稱方陣B與方陣A相似,從A到B的變換稱爲相似變換。
如果A,B相似,則A,B有相同的特徵值,如果同時A有特徵向量X,則對應的B有特徵向量M−1X。證明如下:AX=λX,且A=MBM−1則MBM−1X=λX所以B(M−1X)=λ(M−1X)證畢。
可以說,相似變換把n×n矩陣空間分割成若干子空間,每個子空間可以當做一個類別,子空間內部矩陣相似,因爲相似是可以傳遞的。相似的矩陣有相同的Jordan標準型。第二章中,我們已經證明,如果我們給定線性變換前後,兩個向量空間的基,則這個線性變換可以用矩陣表示,特殊的,如果我們的矩陣是方陣,那麼線性變換其實是在一個向量空間內部,針對同一組基的變換。下面我們會證明,相似的矩陣其實是同一個線性變換,只不過選定的基不同。
證明:假設我們有相似變換B=M−1AM
我們的線性變換是A,原先的基是[u1,u2…un],則A([u1,u2…un])=[u1,u2…un]A
新的基[v1,v2…vn]與原先的基有變換[v1,v2…vn]=[u1,u2…un]M則[v1,v2…vn]M−1=[u1,u2…un]
那麼我們把線性變換作用到新的v基有A([v1,v2…vn])=A([u1,u2…un]M)=A([u1,u2…un])M=[u1,u2…un]AM=[v1,v2…vn]M−1AM=[v1,v2…vn]B
所以,針對線性變換A,如果我們限定變換前後的基爲u基,則該線性變換可以用矩陣A表示;如果我們限定變換前後的基爲v基,則該線性變換可以用矩陣B表示。
證畢。
4.1. 矩陣相似的應用
我們可以利用矩陣相似變換,把矩陣變成對角矩陣,以方便我們的進一步求解。
4.1.1 解微分方程
求解微分方程dtdu=Au
如果我們知道矩陣A有對角相似矩陣B,滿足B=M−1AM
則我們可以求得v滿足u=Mv,則Mdtdv=AMv進一步化簡得
dtdv=M−1AMv=Bv
由於B是對角矩陣,我們可以輕易求得v的取值,進而求得u的值。
4.1.2 解差分方程
求解差分方程uk+1=Auk
如果我們知道矩陣A有對角相似矩陣B,滿足B=M−1AM
則我們可以求得v滿足u=Mv,則Mvk+1=AMvk進一步化簡得
vk+1=M−1AMvk=Bvk
由於B是對角矩陣,我們可以輕易求得v,進而求得u的值。
4.2. 矩陣分解
對於任意方陣A,一定有復特徵值,可以被酉矩陣U分解爲上三角形式U−1AU=T,證明過程較爲麻煩,下面以A4×4爲例進行證明。
證明:
Ax1=λ1x1,λ1爲A的特徵值,x1爲特徵向量。
對x1進行單位化,得到q1同樣滿足Aq1=λ1q1。
找到一組線性無關的向量q1,b,c,d,對其進行施密特正交化法得到q1,q2,q3,q4。
構造酉矩陣U1=[q1,q2,q3,q4],則AU1=[Aq1,Aq2,Aq3,Aq4]=[λ1q1,Aq2,Aq3,Aq4]
則U1−1AU1=U1−1[λ1q1,Aq2,Aq3,Aq4]=U1H[λ1q1,Aq2,Aq3,Aq4]=⎣⎢⎢⎡q1Hq2Hq3Hq4H⎦⎥⎥⎤[λ1q1,Aq2,Aq3,Aq4]=⎣⎢⎢⎡λ1000∗∗∗∗∗∗∗∗∗∗∗∗⎦⎥⎥⎤=⎣⎢⎢⎡λ1000∗∗F3×3∗⎦⎥⎥⎤
∗表示未知值,也就是我們暫時不關心其取值,對右下角F3×3矩陣,我們繼續進行上面的操作,設Fq1′=λ2q1′,利用施密特正交化法找到q2′,q3′,設U2=⎣⎢⎢⎡10000q1′0q2′0q3′⎦⎥⎥⎤
則(U1AU1−1)U2=⎣⎢⎢⎡λ1000∗∗F3×3∗⎦⎥⎥⎤⎣⎢⎢⎡10000q1′0q2′0q3′⎦⎥⎥⎤=⎣⎢⎢⎡λ1000∗Fq1′∗Fq2′∗Fq3′⎦⎥⎥⎤=⎣⎢⎢⎡λ1000∗λ2q1′∗Fq2′∗Fq3′⎦⎥⎥⎤
其中,第二個等號的求解利用了矩陣的分塊乘法。又有U2−1=⎣⎢⎢⎡100000q1′Hq2′Hq3′H0⎦⎥⎥⎤=U2H
所以U2−1(U1AU1−1)U2=⎣⎢⎢⎡100000q1′Hq2′Hq3′H0⎦⎥⎥⎤⎣⎢⎢⎡λ1000∗λ2q1′∗Fq2′∗Fq3′⎦⎥⎥⎤=⎣⎢⎢⎡λ1000∗λ200∗∗∗∗F2×2′⎦⎥⎥⎤
繼續對右下角的F2×2′進行上述操作,找到U3,U4以及λ3,λ4,則存在U=U1U2U3U4使得U−1AU=⎣⎢⎢⎡λ1000∗λ200∗∗λ30∗∗∗λ4⎦⎥⎥⎤
若A特徵向量與特徵根爲實數,則酉矩陣U簡化爲正交矩陣Q。
4.3. Normal矩陣
normal矩陣N,滿足NHN=NNH,下面介紹六個基本normal矩陣。
實數域:實對稱矩陣A: A=AT,反實對稱矩陣A: A=−AT,正交矩陣Q: QQT=I
複數域:厄米矩陣A: A=AH,反厄米矩陣A: A=−AH,酉矩陣U: UUH=I
注意實數域與複數域是對應的。
當然不只有上面幾種normal矩陣,利用分塊的性質,我們還可以輕鬆地構造,例如下面的矩陣也是normal矩陣[Q00A]
normal矩陣的特殊之處在於,如果對normal矩陣進行4.2. 介紹的矩陣分解,我們得到的會是對角矩陣,即U−1NU=T=D,下面簡單證明。
證明:
TTH=U−1NU⋅UHNHU=U−1NNHU=U−1NHNU=UHNHU⋅UHNU=(UHNU)H⋅UHNU=THT
所以T也是normal矩陣,對於一個normal矩陣,如是上三角矩陣,一定也是對角矩陣。證畢。
4.4. 譜定理(spectral thorem)
我瞭解譜定理是從矩陣分解的角度瞭解的,感覺不是很徹底,這部分可能問題較大,可以不看。
譜定理是4.2的矩陣分解,針對實對稱矩陣的特殊形式。實對稱矩陣可以被分解成QΛQT,Λ是特徵根對角矩陣(可重複),Q是正交的特徵向量方陣。
注意譜定理A=QΛQT與特徵值分解A=SΛS−1不同,特徵值分解要求S列向量線性無關,譜定理要求Q列向量單位正交,注意線性無關不一定正交,例如[1,1,0]與[1,0,0],兩者線性無關但不正交。
譜定理使用時,要像4.2.的證明那樣求解。
4.5. Jordan標準型-最一般形式的最簡型
Jordan標準型曾被認爲是線性代數的巔峯,但由於其在實際應用中不宜使用,且隨後發明了強大的SVD分解,Jordan標準型逐漸的被邊緣化,SVD成爲線性代數的巔峯。
在矩陣特徵值分解中,我們要求待分解矩陣An×n至少有n個線性無關的特徵向量,如果A至多有s個線性無關特徵向量,s<n,這樣的矩陣稱爲有缺陷的矩陣(defective matrices),但是這樣的矩陣也可以用類似特徵分解的方法分解到一個最簡單形式,這個最簡形式就是Jordan標準型。J=M−1AM=⎣⎡J1…Js⎦⎤
其中,Ji,i=1…s稱爲Jordan塊Ji=⎣⎢⎢⎢⎢⎢⎢⎡λi1λi1λi…1λi1λi⎦⎥⎥⎥⎥⎥⎥⎤
在一個Jordan塊中,有同樣的特徵值,對應同一個特徵向量,不同的Jordan塊對應不同的特徵向量,但是不同的Jordan塊可以有相同的特徵值。可見對於一個有缺失的矩陣,其Jordan型會在每一個Jordan塊的次對角線上放1。
有相同的特徵根的矩陣不一定相似,例如相似到下面的兩個Jordan標準型的矩陣,特徵值都爲2。
⎣⎢⎢⎢⎢⎢⎢⎡2121221212⎦⎥⎥⎥⎥⎥⎥⎤⎣⎢⎢⎢⎢⎢⎢⎡2122121212⎦⎥⎥⎥⎥⎥⎥⎤
所以,可以說相似的矩陣可以化簡到同一個Jordan標準型。
4.5.1. 應用
和特徵值分解類似,Jordan標準型也可以用於求解微分方程和差分方程。
dtdu=Au⟹u(t)=eAtu(0)=MeJtM−1u(0)
uk+1=Auk⟹uk=Akuo=MJkM−1u0
這裏需要計算J中Jordan塊Jik,計算方法如下Ji=λiI+N=λi⎣⎢⎢⎡111…⎦⎥⎥⎤+⎣⎢⎢⎡010101…⎦⎥⎥⎤
利用二項式定理展開Jik=λikI+Ck1λik−1N+Ck2λik−2N2
其中N以N6×6爲例,N6×6=⎣⎢⎢⎢⎢⎢⎢⎡01010101010⎦⎥⎥⎥⎥⎥⎥⎤
N2等於次對角線移動到第三對角線
N6×62=⎣⎢⎢⎢⎢⎢⎢⎡000100100100100⎦⎥⎥⎥⎥⎥⎥⎤
N3等於次對角線移動到第四對角線
N6×63=⎣⎢⎢⎢⎢⎢⎢⎡000000100010001000⎦⎥⎥⎥⎥⎥⎥⎤
依次向上移動即可
計算eJit類似,利用泰勒展開eJit=e(λiI+N)t=eλiIteNt=eλiIt[I+tN+2!(tN)2+…]
4.6. 涉及相似的矩陣分解
- 矩陣A可對角化,且有n個獨立的特徵向量,則S−1AS=Λ(特徵值分解);
- A是隨意方陣,存在酉矩陣U,使得U−1AU=T(相似分解的最一般形式);
- A是normal矩陣,存在酉矩陣U,使得U−1AU=Λ;
- A是隨意方陣,進行Jordan塊對角化,M−1AM=J(特徵值分解的最一般性);