【矩阵论】对称矩阵特征值的性质与直积

前言

在许多实际问题中,所产生的矩阵往往都是对称矩阵,比如我们耳熟能详的实对称矩阵也是重要的研究对象。以下就从实对称矩阵的角度出发,利用特征值的极小极大原理,从普通特征值问题Ax=λxAx=\lambda x衍生到广义特征值问题Ax=λBxAx=\lambda Bx逐步讨论其特征值的性质。

【广义特征值问题】设A=(aij)Rn×nA=(a_{ij})\in \mathbb{R}^{n\times n}nn实对称矩阵,B=(bij)Rn×nB=(b_{ij})\in \mathbb{R}^{n\times n}nn实对称正定矩阵,使下式 Ax=λBx \mathbf{Ax=\lambda Bx} 有非零解向量xRnx\in \mathbb{R}^{n},则称λ\lambda是矩阵AA相对于矩阵BB的特征值,且xx是属于λ\lambda的特征向量。该问题常见于振动理论。

我们可以发现

  • BIB\not=I时,该问题是广义特征值问题
  • B=IB=I时,该问题是普通特征值问题

思路:如何利用极小极大原理求第kk个特征值及奇异值?

利用极大极小原理,我们先确定nn阶实对称阵的最大最小特征值,然后逐步求第2大和第2小特征值进而归纳到求第kk大和第kk小特征值。

本文就对称矩阵特征值的极性与直积做以梳理,完整定理证明请参考西工大的《矩阵论》[1]。

一、实对称矩阵的瑞利商与广义瑞利商性质

我们在讨论实对称矩阵的特征值时,往往会通过实对称阵的瑞利商来研究,因为瑞利商是由如下特征值问题推导出来的,它可以直接求出矩阵的特征值。
Ax=λxxTAx=λxTxλ=xTAxxTx=R(x) Ax=\lambda x \Rightarrow x^TAx=\lambda x^Tx \Rightarrow \lambda=\frac{x^TAx}{x^Tx}=R(x)

【瑞利商定义】设A=(aij)Rn×nA=(a_{ij})\in \mathbb{R}^{n\times n}nn实对称矩阵,xRnx\in \mathbb{R}^{n},则称下式为矩阵AA的瑞利商(Rayleigh\text{Rayleigh}商) R(x)=xTAxxTx(x0) \mathbf{R(x) = \frac{x^TAx}{x^Tx}} \quad (x\not=\mathbf{0})

【广义瑞利商定义】设A=(aij)Rn×n,B=(bij)Rn×nA=(a_{ij})\in \mathbb{R}^{n\times n},B=(b_{ij})\in \mathbb{R}^{n\times n}均是nn实对称矩阵,且BB正定xRnx\in \mathbb{R}^{n},则称下式为矩阵AA相对于矩阵BB广义瑞利商R(x)=xTAxxTBx(x0) \mathbf{R(x) = \frac{x^TAx}{x^TBx}} \quad (x\not=\mathbf{0})

  • 【性质1】:R(x)R(x)xx连续函数
  • 【性质2】:R(x)R(x)xx的零次齐次函数(齐次性R(kx)=R(x)R(kx)=R(x)
    事实上,对于任意实数λ0\lambda \not=0有下式分别满足齐次性和零次
    R(λx)=R(x)=λ0R(x) R(\lambda x)=R(x)=\lambda^0 R(x)
  • 【性质3】:当xx是由x00x_0\not=0张成的空间时,R(x)R(x)是一常数
  • 【性质4】:R(x)R(x)最大最小值存在,且能够在单位球面S={xxRn,x2=1}S=\{x|x\in \mathbb{R}^n,\|x\|_2=1\}上达到
  • 【性质5】:非零向量x0x_0R(x)R(x)驻点x0\Leftrightarrow x_0Ax=λBxAx=\lambda Bx特征向量,当B=IB=I时对应于瑞利商问题同理,通过矩阵求导可得

一般情况下,我们令实对称矩阵AA的特征值按从小到大顺序排列如下
λ1λ2...λn \lambda_1 \le \lambda_2 \le... \le \lambda_n
对应标准正交特征向量系为p1,p2,...,pnp_1,p_2,...,p_n

【定理】设A=(aij)Rn×nA=(a_{ij})\in \mathbb{R}^{n\times n}nn实对称矩阵,则有 minx0R(x)=λ1,maxx0R(x)=λn,λ1R(x)λn \mathbf{\min_{x\not=\mathbf{0}} R(x) = \lambda_1,\quad \max_{x\not=\mathbf{0}} R(x) = \lambda_n ,\quad \lambda_1 \le R(x) \le \lambda_n}

【证明】任取0xRn\mathbf{0}\not=x \in \mathbb{R}^n,则有
x=c1p1+c2p2+...+cnpn(c12+c22+...+cn20) x=c_1p_1+c_2p_2+...+c_np_n \quad (c_1^2+c_2^2+...+c_n^2\not=0)
由于p1,p2,...,pnp_1,p_2,...,p_n是正交特征向量系,所以有xi=cipix_i=c_ip_i
于是有
Ax=λx=λ1c1p1+λ2c2p2+...+λncnpnxTAx=c12λ1+c22λ2+...+cn2λnxTx=c12+c22+...+cn2 \begin{aligned} Ax&=\lambda x=\lambda_1c_1p_1+\lambda_2c_2p_2+...+\lambda_nc_np_n\\ x^TAx & =c_1^2\lambda_1+c_2^2\lambda_2+...+c_n^2\lambda_n \\ x^Tx & =c_1^2+c_2^2+...+c_n^2 \\ \end{aligned}
ki=ci2c12+c22+...+cn2k_i=\frac{c_i^2}{c_1^2+c_2^2+...+c_n^2},其中k1+k2+...+kn=1k_1+k_2+...+k_n=1,则有
R(x)=xTAxxTx=k1λ1+k2λ2+...+knλn R(x) =\frac{x^TAx}{x^Tx}=k_1\lambda_1+k_2\lambda_2+...+k_n\lambda_n
简单起见,假设AA22阶实对称阵,即仅有两个特征值λ1,λ2\lambda_1,\lambda_2满足R(x)=k1λ1+k2λ2  (k1+k2=1)R(x)=k_1\lambda_1+k_2 \lambda_2\;(k_1+k_2=1),则如下图所示

从上图,我们可以清晰的看出R(x)R(x)xx连续函数,该集合也被称为凸包,由此可得
λ1R(x)λn \lambda_1 \le R(x) \le \lambda_n
可以通过如下式子验证R(p1)=λ1R(p_1)=\lambda_1
R(pi)=piTApipiTpi=λi R(p_i) =\frac{p_i^TAp_i}{p_i^Tp_i}=\lambda_i
有了pkp_kxkx_k,我们可以直接求得第kk小特征值λk\lambda_k。但问题来了,如果我们不知道pkp_k或者不想依赖于xkx_k,我们如何求得第kk小特征值λk\lambda_k呢?这就需要下面一章的极小极大原理了。

【重要推论】若λ1=...=λk(1kn)\lambda_1=...=\lambda_k(1\le k \le n),则在x2=1\|x\|_2=1上,R(x)R(x)的所有极小点为 l1p1+l2p2+...+lkpk \mathbf{l_1p_1+l_2p_2+...+l_kp_k} 其中,liR(i=1,...,k)l_i\in R(i=1,...,k),且满足l12+l12+..+lk2=1l_1^2+l_1^2+..+l_k^2=1.

二、普通与广义特征值的极小极大原理

由上章,我们得到几个工具,令Vn=span{x1,x2,...,xn}  (λ1λ2...λn)V_n=\text{span}\{x_1,x_2,...,x_n\}\;(\lambda_1 \le \lambda_2 \le... \le \lambda_n )则有
R(x)=xTAxxTx=k1λ1+k2λ2+...+knλn R(x) =\frac{x^TAx}{x^Tx}=k_1\lambda_1+k_2\lambda_2+...+k_n\lambda_n
λ1R(x)λn{minx0,xVnR(x)=λ1maxx0,xVnR(x)=λn \lambda_1 \le R(x) \le \lambda_n \Rightarrow \begin{cases} \min_{x\not=\mathbf{0},x\in V_n} R(x) = \lambda_1 \\ \max_{x\not=\mathbf{0},x\in V_n} R(x) = \lambda_n \\ \end{cases}
当我们想求λ2,λn1\lambda_2,\lambda_{n-1}时,可以通过缩小张成的子空间得到
λ2=minx0  R(x)=k1λ1+k2λ2+...+knλns.t.    k1=0λi=minx0  R(x)=k1λ1+k2λ2+...+knλns.t.    k1=k2=...=ki1=0 \begin{aligned} \lambda_{2}= \min_{x\not=0} & \; R(x) =k_1\lambda_1+k_2\lambda_2+...+k_n\lambda_n\\ s.t. & \;\; k_{1}=0 \\ \end{aligned} \\ \vdots \\ \begin{aligned} \lambda_{i}= \min_{x\not=0} & \; R(x) =k_1\lambda_1+k_2\lambda_2+...+k_n\lambda_n\\ s.t. & \;\; k_1=k_2=...=k_{i-1}=0 \\ \end{aligned} \\
同理得
λn1=maxx0  R(x)=k1λ1+k2λ2+...+knλns.t.    kn=0λni1=minx0  R(x)=k1λ1+k2λ2+...+knλns.t.    kn=kn1=...=kni=0 \begin{aligned} \lambda_{n-1}= \max_{x\not=0} & \; R(x) =k_1\lambda_1+k_2\lambda_2+...+k_n\lambda_n\\ s.t. & \;\; k_{n}=0 \\ \end{aligned} \\ \vdots \\ \begin{aligned} \lambda_{n-i-1}= \min_{x\not=0} & \; R(x) =k_1\lambda_1+k_2\lambda_2+...+k_n\lambda_n\\ s.t. & \;\; k_n=k_{n-1}=...=k_{n-i}=0 \\ \end{aligned} \\
因此,我们可以归纳出如下定理

【定理】设xL(pr,pr+1,...,ps),1rsnx\in L(p_r,p_{r+1},...,p_s),1 \le r \le s \le n,则有 minx0  R(x)=λrmaxx0  R(x)=λs \mathbf{\min_{x\not=0} \; R(x) =\lambda_r \quad \max_{x\not=0} \; R(x) =\lambda_s}

2.1 引出问题:由于VkV_k不唯一导致得到多个特征值

但以上定理在pr,psp_r,p_{s}未知下无法使用,因此我们不再指定让某个系数ki=0k_i=0,而是选取kk维子空间VkV_k来求,由于VkV_k是不唯一的,因此可能会得到多个特征值,例如我们想要得到λ2\lambda_2,则选取Vn1V_{n-1},有如下两种情况

minx0  R(x)={λ1      if    x1Vn1λ2      if    x1Vn1 \min_{x\not=0}\; R(x)= \begin{cases} \lambda_{1} \quad \;\;\; \text{if} \;\; x_1 \in V_{n-1} \\ \lambda_{2} \quad \;\;\; \text{if} \;\; x_1 \notin V_{n-1} \\ \end{cases}
maxx0  R(x)={λn      if    xnVn1λn1if    xnVn1 \max_{x\not=0}\; R(x)= \begin{cases} \lambda_{n} \quad \;\;\; \text{if} \;\; x_n \in V_{n-1} \\ \lambda_{n-1} \quad \text{if} \;\; x_n \notin V_{n-1} \\ \end{cases}

2.2 解决问题:使用极大极小原理固定特征向量

对于上述子空间VkV_k不唯一情况,得到
min0xVn1R(x)λ2max0xVn1 R(x)λn1 \min_{0\not =x\in V_{n-1}} R(x)\le \lambda_{2} \quad \max_{0\not =x\in V_{n-1}}\ R(x)\ge \lambda_{n-1}
为解决此问题,我们使用极小极大原理得到
λ2=maxVn1[min0xVn1R(x)],    λn1=minVn1[max0xVn1R(x)] \lambda_{2} = \max_{V_{n-1}} \left[ \min_{0\not =x\in V_{n-1}} R(x) \right] ,\; \; \lambda_{n-1} = \min_{V_{n-1}} \left[ \max_{0\not =x\in V_{n-1}} R(x) \right]
为此,我们归纳出一般的式子,我们

【定理】设VkV_kRn\mathbb{R}^n中的任意一个kk维子空间,则普通特征值问题与广义特征值问题从小到大的第kk个特征值和n(k1)n-(k-1)个特征值具有如下极小极大性质
λn(k1)=maxVk[min0xVkR(x)],    λk=minVk[max0xVkR(x)] \mathbf{\lambda_{n-(k-1)} = \max_{V_{k}} \left[ \min_{0\not =x\in V_{k}} R(x) \right] ,\; \; \lambda_{k} = \min_{V_{k}} \left[ \max_{0\not =x\in V_{k}} R(x) \right] }

  • 左式被称为特征值的极大极小原理
  • 右式被称为特征值的极小极大原理

三、矩阵奇异值的极小极大性质

我们通过矩阵瑞利商的极小极大原理,可以衍生到解决奇异值问题,我们将矩阵ARrm×nA\in \mathbb{R}_r^{m\times n}的奇异值排列如下 [其中,σi=λi(ATA)\sigma _i = \sqrt{\lambda_i (A^TA)}]
0=σ1=σ2=...=σnrσnr+1...σn 0=\sigma _1 =\sigma _2 =... =\sigma _{n-r} \le \sigma _{n-r+1} \le ... \le \sigma _{n}

我们令B=ATAB=A^TA,则实对称矩阵BB的瑞利商如下
R(x)=xTBxxTx=xT(ATA)xxTx=(Ax)TAxxTx=Ax22x22=λ=σ R(x) =\frac{x^TBx}{x^Tx} =\frac{x^T(A^TA)x}{x^Tx}=\frac{(Ax)^TAx}{x^Tx}=\frac{\|Ax\|_2^2}{\|x\|_2^2}=\lambda=\sqrt{\sigma}
则矩阵AA的第kk个奇异值和第nk+1n-k+1个奇异值具有如下极小极大性质
σn(k1)=maxVk[min0xVkAx2x2],    σk=minVk[max0xVkAx2x2] \sigma _{n-(k-1)} = \max_{V_{k}} \left[ \min_{0\not =x\in V_{k}}\frac{\|Ax\|_2}{\|x\|_2} \right] ,\; \; \sigma _{k} = \min_{V_{k}} \left[ \max_{0\not =x\in V_{k}}\frac{\|Ax\|_2}{\|x\|_2} \right]
其中,VkV_kRn\mathbb{R}^n中的任意一个kk维子空间。

附录:矩阵直积(Kronecker\text{Kronecker}积)的概念

运用矩阵的直积运算,能够将线性矩阵方程转换为线性代数方程组进行求解

【定义】设A=(aij)Cm×n,B=(bij)Cp×qA=(a_{ij})\in \mathbb{C}^{m\times n},B=(b_{ij})\in \mathbb{C}^{p\times q},则称如下分块矩阵为AABB的直积(Kronecker\text{Kronecker}积)

参考文献

程云鹏, 凯院, 仲. 矩阵论[M]. 西北工业大学出版社, 2006.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章