重溫矩陣(III) 特殊的矩陣

讓我們重新認識矩陣(III) 對稱矩陣、正定矩陣以及旋轉矩陣

圖片

矩陣,多麼神奇的名詞。當我們嘗試從不同角度去理解它時,實質上通過分析它的過程,我們貫穿了數學的兩大分支:代數與幾何;特別是當我們試圖用我們對歐氏集合的直覺與思路去理解線性代數的知識時,會發現線性代數有那麼多的美好的性質以及絕妙的幾何解釋,彷彿通過這麼可以稱之爲對數學的“事後諸葛亮”行爲,我們不僅可以窺探到當初數學家之所以如此那麼處理問題的立足點與出發點。

理解事物可以從不同的角度出發,當然也會得到不同的解釋;從幾何學,統計學以及應用領域,如數值分析以及圖像處理中我們都可以得到關於矩陣的深切認識。

我們不妨談一談關於矩陣的幾點簡單認識。上一次,我們談到了特徵向量與特徵值以及矩陣的一種簡單形式:對角矩陣;這一次我們說一說正定矩陣:

 

首先,正定矩陣是一種特殊的對稱矩陣,直觀上,他的形式僅次於對角矩陣(因爲對角矩陣是一種對稱矩陣)。它的元素以對角線爲軸呈對稱形式。這樣我們首先有了一個直覺上的認識:這種矩陣給人的感覺是很平衡。是的,我當初就是這麼認識的,但對其來說不僅這些,我們會看到關於正定矩陣的諸多性質,這裏我粗談一下我對正定的認識。

在開始說之前,倒是要談談以前的小故事。在大四時,學生作報告,不斷地提到,對稱正定矩陣這個名詞。臺下的老師就急了:正定矩陣首先就是對稱的,正定矩陣就是對稱的。當時我們不以爲然,因爲我們那時正在學一門叫做數值最優化的課,這門課程的教材上就是用對稱正定矩陣這個名詞進行說明。後來才知道那位老師說的不虛。那對稱正定矩陣的稱謂是信息冗餘了。正定首先就是對稱的。

也可以說,正定矩陣就是一種特殊的對稱矩陣。

而特殊就體現在其所有特徵值均是正的。好像這樣的說明並不能加深我們對正定的認識,首先我們分析一個對稱矩陣有什麼樣的性質。對稱矩陣(針對二維空間來說,如果有兩個特徵向量的話)的特徵向量是正交的(垂直的)。對稱矩陣可以分成其起特徵向量(標準化後的)的乘積加權(權係數爲響應的特徵值)之和,這裏注意因爲我們說到,因爲其對稱矩陣的對應不同特徵值的特徵向量是正交的,所以他們的乘積爲0,可以想象最終的表達式只有特徵向量的平方項得以保留。嗯,這一段確實比較難表達,參看公式:

圖片

以上的相關結論與矩陣的譜分解有關,即上次我們所說的疊加原理中描述的各個不相關的特徵向量(即對應不同特徵值)即矩陣的譜。反映在信息上,譜分解可以壓縮矩陣包含的信息量,這一點大家可以參看圖像的壓縮。因此我們常說從譜的角度則更好去理解特徵向量這個名詞。關於譜我們會再談到的。

同時,回顧上次我們談到將矩陣化爲最簡單的形式:對角矩陣的可能性,對於對稱矩陣其可以化成對角陣的。這一點也比較好理解。

我們提到對於一個線性變換來說,其在不同的基下,對應不同的矩陣。如下我們做操作:

首先,將標準正交基經某對稱矩陣的特徵向量構成特徵向量矩陣將標準正交基變換爲新的正交基,此時,新的正交基爲該對稱矩陣的特徵向量所構成的,因此,對稱矩陣對新的正交基的作用只是對其長度的伸縮(對應對角陣),於是,下面的操作可以想得到了,我們再把正交基變換回原先的標準正交基上,真所謂,怎麼變成的就怎樣變回來,我們只需在乘上特徵向量矩陣的逆矩陣即可變回原先的標準正交基。於是我們發現了經過這種操作,一個對稱矩陣與一個對角陣是相似的。以上的自然語言描述可用下述公式可表示爲:

圖片

注意上述的公式中,I爲標準正交基,Q爲特徵向量構成的矩陣,同時因爲對稱矩陣A的特徵向量矩陣Q也是個正交矩陣,所以Q的逆矩陣與其轉置矩陣是相同的。

現在我們不僅說明了對稱矩陣的一部分有趣的性質和最簡單的矩陣:對角矩陣的千絲萬縷的關係了,也回顧了上次我們講的相似矩陣的知識。現在我們回過頭來看正定矩陣作爲特殊的對稱矩陣又特殊在那裏?

根據正定的定義,我們知道正定陣的特徵值全爲正數。這一個特徵表現在幾何上是他對空間的圖形進行變換是保形的。而這種性質在某些方面就顯得十分重要。例如一個簡單的例子:當一個三角形經過正定矩陣變換後,其三個角的相對位置沒有發生變化,而如果對於一個非正定的矩陣變換後,其角的相對位置就會發生變化。這些就是由於特徵值爲負會對向量產生反向的效果,導致三角形產生了不同於原先的特性。

這裏我們爲了更好的說明正定陣與負定陣產生的變換的不同,採用四邊形的例子來說明:注意對於最右面的負定矩陣變換後,不僅邊的方向發生了變化,其四個頂點的相對位置發生了變化(以順逆時針方向比對),而對於中間的圖:正定矩陣改變的四個邊的方向,但是頂點的相對位置沒發生變化。其中蘊含的道理,大家可以體會。

 

我們既然說這種性質有其優美之處,那麼不妨舉個數值最優化的例子(回顧我們原先講到的爬山的文章),注意我們在說明時,可以根據我們對現實空間的認知來理解其中的緣由。考慮經典優化算法中的牛頓法,實質上是採用海塞陣對當前位置的最速下降方向進行偏移,以使之下降方向偏向最優點(因爲對於凸函數,其最優點的位置的梯度爲0),以現實空間爲例(爬山文已經講過,我們回顧下),當我們下山時,往往並不是走最陡的那條路,而是以稍偏向最低點的方向下山。下圖就是一個例子:傾斜的橢圓是當前需要優化的函數分佈,其中心即爲最優點,而如果直接用下降方向顯然無法使得方向指向最優點。而經過海塞陣(相當於一個變換)偏轉下降方向,使得下降方向指向最優點)

圖片

                   圖:牛頓法與共軛梯度法的幾何意義(注意下降方向的偏轉)

經過這種處理,可以加速收斂(常識上,這種下山法可以更快的下到最低點)。這種思想非常的好,用直觀的幾何認知都可以獲得,最速下降法並不能保證我們有很高的收斂速度,而使用海塞陣偏移最速下降方向後(即一個矩陣變換)得到的新方向可以加速其收斂,但這種方法有一定的侷限,特別在一些極端的例子下(讀者可以想象一下,當山形很奇怪的情況),其海塞陣不是正定的,導致對最速下降方向變換後,得到的新方向不再會下降了,這種情況當然就是我們所不希望的。因此我們必須保證海塞陣是正定的,以保證不會使原先的方向變得不再是下降方向。當遇到這種極端的情況時,往往我們取一個矩陣來模擬海塞陣,我們稱這種新的方法爲擬牛頓法。這裏我們就不再多說了。

 

好,我們關於正定性的一點描述結束了,更多的性質可以翻看教科書或wiki,這裏建議大家多多關注wiki,會有很多的思考。

我們知道對於對稱矩陣有了從直覺上的認知,其元素的分佈是對稱的,下面我們如法炮製,嘗試從另一種角度理解矩陣:元素的分佈對矩陣引發的變換有什麼樣的效果。我們首先觀察對稱矩陣,其元素分佈呈現一種對稱的效果。

我們姑且盜用“能量”這個物理概念來幫助我們去理解矩陣的特性(不太嚴格的說):

對於矩陣的每一行我們可以看作爲矩陣利用每一維的能量去構建新的每一維(實質上是能量的增強或消弱,且增加的幅度一致),矩陣每一行的元素可以看做每一維能量分佈的加權係數,將每一維的能量通過線性加權重新組成新的對應維,因此,對稱矩陣的特點不用說,每一維對另一維的貢獻量(對稱位置元素的大小)是與另一維對其的貢獻量是對等的。反映在幾何上是不同的正交基在偏移量對等。

反之,我們看旋轉矩陣(或正交矩陣)的效果,其對應的變換使單位圓的能量不變(面積不變),而對於每一維來說,其轉化給另一維多少能量,對方即獲得多少能量,即成一個保守的變換。因此對於正交矩陣其轉置與其逆矩陣是一樣的效果(因爲轉置相當於將能量的轉移兩方對調,而逆矩陣相當於將獲得能量的一方推給對方,這大概就是正交矩陣的意義了)。其在物理上的意義是不言而喻的。旋轉矩陣對應於能量的轉移,總能量保持不變。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章