重温矩阵(III) 特殊的矩阵

让我们重新认识矩阵(III) 对称矩阵、正定矩阵以及旋转矩阵

图片

矩阵,多么神奇的名词。当我们尝试从不同角度去理解它时,实质上通过分析它的过程,我们贯穿了数学的两大分支:代数与几何;特别是当我们试图用我们对欧氏集合的直觉与思路去理解线性代数的知识时,会发现线性代数有那么多的美好的性质以及绝妙的几何解释,仿佛通过这么可以称之为对数学的“事后诸葛亮”行为,我们不仅可以窥探到当初数学家之所以如此那么处理问题的立足点与出发点。

理解事物可以从不同的角度出发,当然也会得到不同的解释;从几何学,统计学以及应用领域,如数值分析以及图像处理中我们都可以得到关于矩阵的深切认识。

我们不妨谈一谈关于矩阵的几点简单认识。上一次,我们谈到了特征向量与特征值以及矩阵的一种简单形式:对角矩阵;这一次我们说一说正定矩阵:

 

首先,正定矩阵是一种特殊的对称矩阵,直观上,他的形式仅次于对角矩阵(因为对角矩阵是一种对称矩阵)。它的元素以对角线为轴呈对称形式。这样我们首先有了一个直觉上的认识:这种矩阵给人的感觉是很平衡。是的,我当初就是这么认识的,但对其来说不仅这些,我们会看到关于正定矩阵的诸多性质,这里我粗谈一下我对正定的认识。

在开始说之前,倒是要谈谈以前的小故事。在大四时,学生作报告,不断地提到,对称正定矩阵这个名词。台下的老师就急了:正定矩阵首先就是对称的,正定矩阵就是对称的。当时我们不以为然,因为我们那时正在学一门叫做数值最优化的课,这门课程的教材上就是用对称正定矩阵这个名词进行说明。后来才知道那位老师说的不虚。那对称正定矩阵的称谓是信息冗余了。正定首先就是对称的。

也可以说,正定矩阵就是一种特殊的对称矩阵。

而特殊就体现在其所有特征值均是正的。好像这样的说明并不能加深我们对正定的认识,首先我们分析一个对称矩阵有什么样的性质。对称矩阵(针对二维空间来说,如果有两个特征向量的话)的特征向量是正交的(垂直的)。对称矩阵可以分成其起特征向量(标准化后的)的乘积加权(权系数为响应的特征值)之和,这里注意因为我们说到,因为其对称矩阵的对应不同特征值的特征向量是正交的,所以他们的乘积为0,可以想象最终的表达式只有特征向量的平方项得以保留。嗯,这一段确实比较难表达,参看公式:

图片

以上的相关结论与矩阵的谱分解有关,即上次我们所说的叠加原理中描述的各个不相关的特征向量(即对应不同特征值)即矩阵的谱。反映在信息上,谱分解可以压缩矩阵包含的信息量,这一点大家可以参看图像的压缩。因此我们常说从谱的角度则更好去理解特征向量这个名词。关于谱我们会再谈到的。

同时,回顾上次我们谈到将矩阵化为最简单的形式:对角矩阵的可能性,对于对称矩阵其可以化成对角阵的。这一点也比较好理解。

我们提到对于一个线性变换来说,其在不同的基下,对应不同的矩阵。如下我们做操作:

首先,将标准正交基经某对称矩阵的特征向量构成特征向量矩阵将标准正交基变换为新的正交基,此时,新的正交基为该对称矩阵的特征向量所构成的,因此,对称矩阵对新的正交基的作用只是对其长度的伸缩(对应对角阵),于是,下面的操作可以想得到了,我们再把正交基变换回原先的标准正交基上,真所谓,怎么变成的就怎样变回来,我们只需在乘上特征向量矩阵的逆矩阵即可变回原先的标准正交基。于是我们发现了经过这种操作,一个对称矩阵与一个对角阵是相似的。以上的自然语言描述可用下述公式可表示为:

图片

注意上述的公式中,I为标准正交基,Q为特征向量构成的矩阵,同时因为对称矩阵A的特征向量矩阵Q也是个正交矩阵,所以Q的逆矩阵与其转置矩阵是相同的。

现在我们不仅说明了对称矩阵的一部分有趣的性质和最简单的矩阵:对角矩阵的千丝万缕的关系了,也回顾了上次我们讲的相似矩阵的知识。现在我们回过头来看正定矩阵作为特殊的对称矩阵又特殊在那里?

根据正定的定义,我们知道正定阵的特征值全为正数。这一个特征表现在几何上是他对空间的图形进行变换是保形的。而这种性质在某些方面就显得十分重要。例如一个简单的例子:当一个三角形经过正定矩阵变换后,其三个角的相对位置没有发生变化,而如果对于一个非正定的矩阵变换后,其角的相对位置就会发生变化。这些就是由于特征值为负会对向量产生反向的效果,导致三角形产生了不同于原先的特性。

这里我们为了更好的说明正定阵与负定阵产生的变换的不同,采用四边形的例子来说明:注意对于最右面的负定矩阵变换后,不仅边的方向发生了变化,其四个顶点的相对位置发生了变化(以顺逆时针方向比对),而对于中间的图:正定矩阵改变的四个边的方向,但是顶点的相对位置没发生变化。其中蕴含的道理,大家可以体会。

 

我们既然说这种性质有其优美之处,那么不妨举个数值最优化的例子(回顾我们原先讲到的爬山的文章),注意我们在说明时,可以根据我们对现实空间的认知来理解其中的缘由。考虑经典优化算法中的牛顿法,实质上是采用海塞阵对当前位置的最速下降方向进行偏移,以使之下降方向偏向最优点(因为对于凸函数,其最优点的位置的梯度为0),以现实空间为例(爬山文已经讲过,我们回顾下),当我们下山时,往往并不是走最陡的那条路,而是以稍偏向最低点的方向下山。下图就是一个例子:倾斜的椭圆是当前需要优化的函数分布,其中心即为最优点,而如果直接用下降方向显然无法使得方向指向最优点。而经过海塞阵(相当于一个变换)偏转下降方向,使得下降方向指向最优点)

图片

                   图:牛顿法与共轭梯度法的几何意义(注意下降方向的偏转)

经过这种处理,可以加速收敛(常识上,这种下山法可以更快的下到最低点)。这种思想非常的好,用直观的几何认知都可以获得,最速下降法并不能保证我们有很高的收敛速度,而使用海塞阵偏移最速下降方向后(即一个矩阵变换)得到的新方向可以加速其收敛,但这种方法有一定的局限,特别在一些极端的例子下(读者可以想象一下,当山形很奇怪的情况),其海塞阵不是正定的,导致对最速下降方向变换后,得到的新方向不再会下降了,这种情况当然就是我们所不希望的。因此我们必须保证海塞阵是正定的,以保证不会使原先的方向变得不再是下降方向。当遇到这种极端的情况时,往往我们取一个矩阵来模拟海塞阵,我们称这种新的方法为拟牛顿法。这里我们就不再多说了。

 

好,我们关于正定性的一点描述结束了,更多的性质可以翻看教科书或wiki,这里建议大家多多关注wiki,会有很多的思考。

我们知道对于对称矩阵有了从直觉上的认知,其元素的分布是对称的,下面我们如法炮制,尝试从另一种角度理解矩阵:元素的分布对矩阵引发的变换有什么样的效果。我们首先观察对称矩阵,其元素分布呈现一种对称的效果。

我们姑且盗用“能量”这个物理概念来帮助我们去理解矩阵的特性(不太严格的说):

对于矩阵的每一行我们可以看作为矩阵利用每一维的能量去构建新的每一维(实质上是能量的增强或消弱,且增加的幅度一致),矩阵每一行的元素可以看做每一维能量分布的加权系数,将每一维的能量通过线性加权重新组成新的对应维,因此,对称矩阵的特点不用说,每一维对另一维的贡献量(对称位置元素的大小)是与另一维对其的贡献量是对等的。反映在几何上是不同的正交基在偏移量对等。

反之,我们看旋转矩阵(或正交矩阵)的效果,其对应的变换使单位圆的能量不变(面积不变),而对于每一维来说,其转化给另一维多少能量,对方即获得多少能量,即成一个保守的变换。因此对于正交矩阵其转置与其逆矩阵是一样的效果(因为转置相当于将能量的转移两方对调,而逆矩阵相当于将获得能量的一方推给对方,这大概就是正交矩阵的意义了)。其在物理上的意义是不言而喻的。旋转矩阵对应于能量的转移,总能量保持不变。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章