【矩陣論】對稱矩陣特徵值的性質與直積

前言

在許多實際問題中,所產生的矩陣往往都是對稱矩陣,比如我們耳熟能詳的實對稱矩陣也是重要的研究對象。以下就從實對稱矩陣的角度出發,利用特徵值的極小極大原理,從普通特徵值問題Ax=λxAx=\lambda x衍生到廣義特徵值問題Ax=λBxAx=\lambda Bx逐步討論其特徵值的性質。

【廣義特徵值問題】設A=(aij)Rn×nA=(a_{ij})\in \mathbb{R}^{n\times n}nn實對稱矩陣,B=(bij)Rn×nB=(b_{ij})\in \mathbb{R}^{n\times n}nn實對稱正定矩陣,使下式 Ax=λBx \mathbf{Ax=\lambda Bx} 有非零解向量xRnx\in \mathbb{R}^{n},則稱λ\lambda是矩陣AA相對於矩陣BB的特徵值,且xx是屬於λ\lambda的特徵向量。該問題常見於振動理論。

我們可以發現

  • BIB\not=I時,該問題是廣義特徵值問題
  • B=IB=I時,該問題是普通特徵值問題

思路:如何利用極小極大原理求第kk個特徵值及奇異值?

利用極大極小原理,我們先確定nn階實對稱陣的最大最小特徵值,然後逐步求第2大和第2小特徵值進而歸納到求第kk大和第kk小特徵值。

本文就對稱矩陣特徵值的極性與直積做以梳理,完整定理證明請參考西工大的《矩陣論》[1]。

一、實對稱矩陣的瑞利商與廣義瑞利商性質

我們在討論實對稱矩陣的特徵值時,往往會通過實對稱陣的瑞利商來研究,因爲瑞利商是由如下特徵值問題推導出來的,它可以直接求出矩陣的特徵值。
Ax=λxxTAx=λxTxλ=xTAxxTx=R(x) Ax=\lambda x \Rightarrow x^TAx=\lambda x^Tx \Rightarrow \lambda=\frac{x^TAx}{x^Tx}=R(x)

【瑞利商定義】設A=(aij)Rn×nA=(a_{ij})\in \mathbb{R}^{n\times n}nn實對稱矩陣,xRnx\in \mathbb{R}^{n},則稱下式爲矩陣AA的瑞利商(Rayleigh\text{Rayleigh}商) R(x)=xTAxxTx(x0) \mathbf{R(x) = \frac{x^TAx}{x^Tx}} \quad (x\not=\mathbf{0})

【廣義瑞利商定義】設A=(aij)Rn×n,B=(bij)Rn×nA=(a_{ij})\in \mathbb{R}^{n\times n},B=(b_{ij})\in \mathbb{R}^{n\times n}均是nn實對稱矩陣,且BB正定xRnx\in \mathbb{R}^{n},則稱下式爲矩陣AA相對於矩陣BB廣義瑞利商R(x)=xTAxxTBx(x0) \mathbf{R(x) = \frac{x^TAx}{x^TBx}} \quad (x\not=\mathbf{0})

  • 【性質1】:R(x)R(x)xx連續函數
  • 【性質2】:R(x)R(x)xx的零次齊次函數(齊次性R(kx)=R(x)R(kx)=R(x)
    事實上,對於任意實數λ0\lambda \not=0有下式分別滿足齊次性和零次
    R(λx)=R(x)=λ0R(x) R(\lambda x)=R(x)=\lambda^0 R(x)
  • 【性質3】:當xx是由x00x_0\not=0張成的空間時,R(x)R(x)是一常數
  • 【性質4】:R(x)R(x)最大最小值存在,且能夠在單位球面S={xxRn,x2=1}S=\{x|x\in \mathbb{R}^n,\|x\|_2=1\}上達到
  • 【性質5】:非零向量x0x_0R(x)R(x)駐點x0\Leftrightarrow x_0Ax=λBxAx=\lambda Bx特徵向量,當B=IB=I時對應於瑞利商問題同理,通過矩陣求導可得

一般情況下,我們令實對稱矩陣AA的特徵值按從小到大順序排列如下
λ1λ2...λn \lambda_1 \le \lambda_2 \le... \le \lambda_n
對應標準正交特徵向量係爲p1,p2,...,pnp_1,p_2,...,p_n

【定理】設A=(aij)Rn×nA=(a_{ij})\in \mathbb{R}^{n\times n}nn實對稱矩陣,則有 minx0R(x)=λ1,maxx0R(x)=λn,λ1R(x)λn \mathbf{\min_{x\not=\mathbf{0}} R(x) = \lambda_1,\quad \max_{x\not=\mathbf{0}} R(x) = \lambda_n ,\quad \lambda_1 \le R(x) \le \lambda_n}

【證明】任取0xRn\mathbf{0}\not=x \in \mathbb{R}^n,則有
x=c1p1+c2p2+...+cnpn(c12+c22+...+cn20) x=c_1p_1+c_2p_2+...+c_np_n \quad (c_1^2+c_2^2+...+c_n^2\not=0)
由於p1,p2,...,pnp_1,p_2,...,p_n是正交特徵向量系,所以有xi=cipix_i=c_ip_i
於是有
Ax=λx=λ1c1p1+λ2c2p2+...+λncnpnxTAx=c12λ1+c22λ2+...+cn2λnxTx=c12+c22+...+cn2 \begin{aligned} Ax&=\lambda x=\lambda_1c_1p_1+\lambda_2c_2p_2+...+\lambda_nc_np_n\\ x^TAx & =c_1^2\lambda_1+c_2^2\lambda_2+...+c_n^2\lambda_n \\ x^Tx & =c_1^2+c_2^2+...+c_n^2 \\ \end{aligned}
ki=ci2c12+c22+...+cn2k_i=\frac{c_i^2}{c_1^2+c_2^2+...+c_n^2},其中k1+k2+...+kn=1k_1+k_2+...+k_n=1,則有
R(x)=xTAxxTx=k1λ1+k2λ2+...+knλn R(x) =\frac{x^TAx}{x^Tx}=k_1\lambda_1+k_2\lambda_2+...+k_n\lambda_n
簡單起見,假設AA22階實對稱陣,即僅有兩個特徵值λ1,λ2\lambda_1,\lambda_2滿足R(x)=k1λ1+k2λ2  (k1+k2=1)R(x)=k_1\lambda_1+k_2 \lambda_2\;(k_1+k_2=1),則如下圖所示

從上圖,我們可以清晰的看出R(x)R(x)xx連續函數,該集合也被稱爲凸包,由此可得
λ1R(x)λn \lambda_1 \le R(x) \le \lambda_n
可以通過如下式子驗證R(p1)=λ1R(p_1)=\lambda_1
R(pi)=piTApipiTpi=λi R(p_i) =\frac{p_i^TAp_i}{p_i^Tp_i}=\lambda_i
有了pkp_kxkx_k,我們可以直接求得第kk小特徵值λk\lambda_k。但問題來了,如果我們不知道pkp_k或者不想依賴於xkx_k,我們如何求得第kk小特徵值λk\lambda_k呢?這就需要下面一章的極小極大原理了。

【重要推論】若λ1=...=λk(1kn)\lambda_1=...=\lambda_k(1\le k \le n),則在x2=1\|x\|_2=1上,R(x)R(x)的所有極小點爲 l1p1+l2p2+...+lkpk \mathbf{l_1p_1+l_2p_2+...+l_kp_k} 其中,liR(i=1,...,k)l_i\in R(i=1,...,k),且滿足l12+l12+..+lk2=1l_1^2+l_1^2+..+l_k^2=1.

二、普通與廣義特徵值的極小極大原理

由上章,我們得到幾個工具,令Vn=span{x1,x2,...,xn}  (λ1λ2...λn)V_n=\text{span}\{x_1,x_2,...,x_n\}\;(\lambda_1 \le \lambda_2 \le... \le \lambda_n )則有
R(x)=xTAxxTx=k1λ1+k2λ2+...+knλn R(x) =\frac{x^TAx}{x^Tx}=k_1\lambda_1+k_2\lambda_2+...+k_n\lambda_n
λ1R(x)λn{minx0,xVnR(x)=λ1maxx0,xVnR(x)=λn \lambda_1 \le R(x) \le \lambda_n \Rightarrow \begin{cases} \min_{x\not=\mathbf{0},x\in V_n} R(x) = \lambda_1 \\ \max_{x\not=\mathbf{0},x\in V_n} R(x) = \lambda_n \\ \end{cases}
當我們想求λ2,λn1\lambda_2,\lambda_{n-1}時,可以通過縮小張成的子空間得到
λ2=minx0  R(x)=k1λ1+k2λ2+...+knλns.t.    k1=0λi=minx0  R(x)=k1λ1+k2λ2+...+knλns.t.    k1=k2=...=ki1=0 \begin{aligned} \lambda_{2}= \min_{x\not=0} & \; R(x) =k_1\lambda_1+k_2\lambda_2+...+k_n\lambda_n\\ s.t. & \;\; k_{1}=0 \\ \end{aligned} \\ \vdots \\ \begin{aligned} \lambda_{i}= \min_{x\not=0} & \; R(x) =k_1\lambda_1+k_2\lambda_2+...+k_n\lambda_n\\ s.t. & \;\; k_1=k_2=...=k_{i-1}=0 \\ \end{aligned} \\
同理得
λn1=maxx0  R(x)=k1λ1+k2λ2+...+knλns.t.    kn=0λni1=minx0  R(x)=k1λ1+k2λ2+...+knλns.t.    kn=kn1=...=kni=0 \begin{aligned} \lambda_{n-1}= \max_{x\not=0} & \; R(x) =k_1\lambda_1+k_2\lambda_2+...+k_n\lambda_n\\ s.t. & \;\; k_{n}=0 \\ \end{aligned} \\ \vdots \\ \begin{aligned} \lambda_{n-i-1}= \min_{x\not=0} & \; R(x) =k_1\lambda_1+k_2\lambda_2+...+k_n\lambda_n\\ s.t. & \;\; k_n=k_{n-1}=...=k_{n-i}=0 \\ \end{aligned} \\
因此,我們可以歸納出如下定理

【定理】設xL(pr,pr+1,...,ps),1rsnx\in L(p_r,p_{r+1},...,p_s),1 \le r \le s \le n,則有 minx0  R(x)=λrmaxx0  R(x)=λs \mathbf{\min_{x\not=0} \; R(x) =\lambda_r \quad \max_{x\not=0} \; R(x) =\lambda_s}

2.1 引出問題:由於VkV_k不唯一導致得到多個特徵值

但以上定理在pr,psp_r,p_{s}未知下無法使用,因此我們不再指定讓某個係數ki=0k_i=0,而是選取kk維子空間VkV_k來求,由於VkV_k是不唯一的,因此可能會得到多個特徵值,例如我們想要得到λ2\lambda_2,則選取Vn1V_{n-1},有如下兩種情況

minx0  R(x)={λ1      if    x1Vn1λ2      if    x1Vn1 \min_{x\not=0}\; R(x)= \begin{cases} \lambda_{1} \quad \;\;\; \text{if} \;\; x_1 \in V_{n-1} \\ \lambda_{2} \quad \;\;\; \text{if} \;\; x_1 \notin V_{n-1} \\ \end{cases}
maxx0  R(x)={λn      if    xnVn1λn1if    xnVn1 \max_{x\not=0}\; R(x)= \begin{cases} \lambda_{n} \quad \;\;\; \text{if} \;\; x_n \in V_{n-1} \\ \lambda_{n-1} \quad \text{if} \;\; x_n \notin V_{n-1} \\ \end{cases}

2.2 解決問題:使用極大極小原理固定特徵向量

對於上述子空間VkV_k不唯一情況,得到
min0xVn1R(x)λ2max0xVn1 R(x)λn1 \min_{0\not =x\in V_{n-1}} R(x)\le \lambda_{2} \quad \max_{0\not =x\in V_{n-1}}\ R(x)\ge \lambda_{n-1}
爲解決此問題,我們使用極小極大原理得到
λ2=maxVn1[min0xVn1R(x)],    λn1=minVn1[max0xVn1R(x)] \lambda_{2} = \max_{V_{n-1}} \left[ \min_{0\not =x\in V_{n-1}} R(x) \right] ,\; \; \lambda_{n-1} = \min_{V_{n-1}} \left[ \max_{0\not =x\in V_{n-1}} R(x) \right]
爲此,我們歸納出一般的式子,我們

【定理】設VkV_kRn\mathbb{R}^n中的任意一個kk維子空間,則普通特徵值問題與廣義特徵值問題從小到大的第kk個特徵值和n(k1)n-(k-1)個特徵值具有如下極小極大性質
λn(k1)=maxVk[min0xVkR(x)],    λk=minVk[max0xVkR(x)] \mathbf{\lambda_{n-(k-1)} = \max_{V_{k}} \left[ \min_{0\not =x\in V_{k}} R(x) \right] ,\; \; \lambda_{k} = \min_{V_{k}} \left[ \max_{0\not =x\in V_{k}} R(x) \right] }

  • 左式被稱爲特徵值的極大極小原理
  • 右式被稱爲特徵值的極小極大原理

三、矩陣奇異值的極小極大性質

我們通過矩陣瑞利商的極小極大原理,可以衍生到解決奇異值問題,我們將矩陣ARrm×nA\in \mathbb{R}_r^{m\times n}的奇異值排列如下 [其中,σi=λi(ATA)\sigma _i = \sqrt{\lambda_i (A^TA)}]
0=σ1=σ2=...=σnrσnr+1...σn 0=\sigma _1 =\sigma _2 =... =\sigma _{n-r} \le \sigma _{n-r+1} \le ... \le \sigma _{n}

我們令B=ATAB=A^TA,則實對稱矩陣BB的瑞利商如下
R(x)=xTBxxTx=xT(ATA)xxTx=(Ax)TAxxTx=Ax22x22=λ=σ R(x) =\frac{x^TBx}{x^Tx} =\frac{x^T(A^TA)x}{x^Tx}=\frac{(Ax)^TAx}{x^Tx}=\frac{\|Ax\|_2^2}{\|x\|_2^2}=\lambda=\sqrt{\sigma}
則矩陣AA的第kk個奇異值和第nk+1n-k+1個奇異值具有如下極小極大性質
σn(k1)=maxVk[min0xVkAx2x2],    σk=minVk[max0xVkAx2x2] \sigma _{n-(k-1)} = \max_{V_{k}} \left[ \min_{0\not =x\in V_{k}}\frac{\|Ax\|_2}{\|x\|_2} \right] ,\; \; \sigma _{k} = \min_{V_{k}} \left[ \max_{0\not =x\in V_{k}}\frac{\|Ax\|_2}{\|x\|_2} \right]
其中,VkV_kRn\mathbb{R}^n中的任意一個kk維子空間。

附錄:矩陣直積(Kronecker\text{Kronecker}積)的概念

運用矩陣的直積運算,能夠將線性矩陣方程轉換爲線性代數方程組進行求解

【定義】設A=(aij)Cm×n,B=(bij)Cp×qA=(a_{ij})\in \mathbb{C}^{m\times n},B=(b_{ij})\in \mathbb{C}^{p\times q},則稱如下分塊矩陣爲AABB的直積(Kronecker\text{Kronecker}積)

參考文獻

程雲鵬, 凱院, 仲. 矩陣論[M]. 西北工業大學出版社, 2006.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章