特徵值和特徵向量的理解

在線性代數的最後,我們都會學矩陣的特徵值分解,我們知道一個方陣A經過特徵值分解後就得到特徵向量和特徵值了。那麼,這個所謂的特徵值和特徵向量到底是什麼東西呢?

我們一上來就會學到這樣的一個公式:

Ax = λx,其中x是一個向量

這個式子是如此的簡單粗暴,以致於從這個公式來看,給向量x乘上一個矩陣A,只是相當於給這個向量乘上了一個係數λ。偌大一個矩陣A對向量x的作用竟然本質上不過只是和一個小小的數字λ相同而已!!!

所以這個矩陣分解方法到底具有什麼樣的意義?

首先給出概念上的一種解釋。所謂的特徵值和特徵向量,最重要的是理解“特徵”這兩個字,特徵向量翻譯爲eigen vector, eigen這個單詞來自德語,本義是在“本身固有的,本質的”。純數學的定義下,並不能很明白地理解到底爲什麼叫做特徵值和特徵向量。但是舉一個應用例子,可能就容易理解多了。

在圖像處理中,有一種方法就是特徵值分解。我們都知道圖像其實就是一個像素值組成的矩陣,假設有一個100x100的圖像,對這個圖像矩陣做特徵值分解,其實是在提取這個圖像中的特徵,這些提取出來的特徵是一個個的向量,即對應着特徵向量。而這些特徵在圖像中到底有多重要,這個重要性則通過特徵值來表示。比如這個100x100的圖像矩陣A分解之後,會得到一個100x100的特徵向量組成的矩陣Q,以及一個100x100的只有對角線上的元素不爲0的矩陣E,這個矩陣E對角線上的元素就是特徵值,而且還是按照從大到小排列的(取模,對於單個數來說,其實就是取絕對值),也就是說這個圖像A提取出來了100個特徵,這100個特徵的重要性由100個數字來表示,這100個數字存放在對角矩陣E中。在實際中我們發現,提取出來的這100個特徵從他們的特徵值大小來看,大部分只有前20(這個20不一定,有的是10,有的是30或者更多)個特徵對應的特徵值很大,後面的就都是接近0了,也就是說後面的那些特徵對圖像的貢獻幾乎可以忽略不計。我們知道,圖像矩陣A特徵值分解後可以得到矩陣Q和矩陣E:

 


那麼反推出去,把右邊的三個矩陣相乘肯定也能得到矩陣A。既然已經知道了矩陣E中只有前20個特徵值比較重要,那麼我們不妨試試把E中除了前20個後面的都置爲0,即只取圖像的前20個主要特徵來恢復圖像,剩下的全部捨棄,看看此時會發生什麼:

原圖:【注意:特徵值分解要求必須是nxn的方陣,如果不是行列相等的方陣,請使用奇異值分解】

只取前10個特徵值:

只取前20個特徵值:

只取前50個特徵值:

只取前100個特徵值:

我們可以看到,在只取前20個特徵值和特徵向量對圖像進行恢復的時候,基本上已經可以看到圖像的大體輪廓了,而取到前50的時候,幾乎已經和原圖像無異了。明白了吧,這就是所謂的矩陣的特徵向量和特徵值的作用。

我們再來從數學定義上嘗試去理解。對應一個給定的矩陣A,如果有一個向量v,使得矩陣A作用於v之後(即A和v相乘),得到的新向量和v仍然保持在同一直線上,像下面這樣:

Ax = λx

那麼就稱向量v是矩陣A的一個特徵向量,而λ就是特徵向量v對應的特徵值【一個特徵向量一定對應有一個特徵值】。

注意這個定義中的要點,我們都知道矩陣其實就是一個線性變換,向量v在經過矩陣A這個線性變換之後,新向量和原來的向量v仍然保持在同一直線上,也就是說這個變換隻是把向量v的長度進行了改變而保持方向不變(在特徵值是負數的情況下,新向量的方向是原來方向的反向,即180°反方向)。

爲了理解這個概念,我們再看維基百科上關於特徵向量給出的一個《蒙娜麗莎》的例子:


當蒙娜麗莎的圖像左右翻轉時,中間垂直的紅色向量方向保持不變。而水平方向上黃色的向量的方向完全反轉,因此它們都是左右翻轉變換的特徵向量。紅色向量長度不變,其特徵值爲1。黃色向量長度也不變但方向變了,其特徵值爲-1。橙色向量在翻轉後和原來的向量不在同一條直線上,因此不是特徵向量。

所以歸根結底,特徵向量其實反應的是矩陣A本身固有的一些特徵,本來一個矩陣就是一個線性變換,當把這個矩陣作用於一個向量的時候,通常情況絕大部分向量都會被這個矩陣A變換得“面目全非”,但是偏偏剛好存在這麼一些向量,被矩陣A變換之後居然還能保持原來的樣子,於是這些向量就可以作爲矩陣的核心代表了。於是我們可以說:一個變換(即一個矩陣)可以由其特徵值和特徵向量完全表述,這是因爲從數學上看,這個矩陣所有的特徵向量組成了這個向量空間的一組基底。而矩陣作爲變換的本質其實不就把一個基底下的東西變換到另一個基底表示的空間中麼?
 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章