轉載請聲明出處：http://blog.csdn.net/zhongkelee/article/details/44064401

一、PCA簡介

1. 相關背景

上完陳恩紅老師的《機器學習與知識發現》和季海波老師的《矩陣代數》兩門課之後，頗有體會。最近在做主成分分析和奇異值分解方面的項目，所以記錄一下心得體會。

在許多領域的研究與應用中，往往需要對反映事物的多個變量進行大量的觀測，收集大量數據以便進行分析尋找規律。多變量大樣本無疑會爲研究和應用提供了豐富的信息，但也在一定程度上增加了數據採集的工作量，更重要的是在多數情況下，許多變量之間可能存在相關性，從而增加了問題分析的複雜性，同時對分析帶來不便。如果分別對每個指標進行分析，分析往往是孤立的，而不是綜合的。盲目減少指標會損失很多信息，容易產生錯誤的結論。

因此需要找到一個合理的方法，在減少需要分析的指標同時，儘量減少原指標包含信息的損失，以達到對所收集數據進行全面分析的目的。由於各變量間存在一定的相關關係，因此有可能用較少的綜合指標分別綜合存在於各變量中的各類信息。主成分分析與因子分析就屬於這類降維的方法。

2. 問題描述

下表1是某些學生的語文、數學、物理、化學成績統計：

首先，假設這些科目成績不相關，也就是說某一科目考多少分與其他科目沒有關係。那麼一眼就能看出來，數學、物理、化學這三門課的成績構成了這組數據的主成分（很顯然，數學作爲第一主成分，因爲數學成績拉的最開）。爲什麼一眼能看出來？因爲座標軸選對了！下面再看一組學生的數學、物理、化學、語文、歷史、英語成績統計，見表2，還能不能一眼看出來：

數據太多了，以至於看起來有些凌亂！也就是說，無法直接看出這組數據的主成分，因爲在座標系下這組數據分佈的很散亂。究其原因，是因爲無法撥開遮住肉眼的迷霧~如果把這些數據在相應的空間中表示出來，也許你就能換一個觀察角度找出主成分。如下圖1所示：

但是，對於更高維的數據，能想象其分佈嗎？就算能描述分佈，如何精確地找到這些主成分的軸？如何衡量你提取的主成分到底佔了整個數據的多少信息？所以，我們就要用到主成分分析的處理方法。

3. 數據降維

爲了說明什麼是數據的主成分，先從數據降維說起。數據降維是怎麼回事兒？假設三維空間中有一系列點，這些點分佈在一個過原點的斜面上，如果你用自然座標系x,y,z這三個軸來表示這組數據的話，需要使用三個維度，而事實上，這些點的分佈僅僅是在一個二維的平面上，那麼，問題出在哪裏？如果你再仔細想想，能不能把x,y,z座標系旋轉一下，使數據所在平面與x,y平面重合？這就對了！如果把旋轉後的座標系記爲x',y',z'，那麼這組數據的表示只用x'和y'兩個維度表示即可！當然了，如果想恢復原來的表示方式，那就得把這兩個座標之間的變換矩陣存下來。這樣就能把數據維度降下來了！但是，我們要看到這個過程的本質，如果把這些數據按行或者按列排成一個矩陣，那麼這個矩陣的秩就是2！這些數據之間是有相關性的，這些數據構成的過原點的向量的最大線性無關組包含2個向量，這就是爲什麼一開始就假設平面過原點的原因！那麼如果平面不過原點呢？這就是數據中心化的緣故！將座標原點平移到數據中心，這樣原本不相關的數據在這個新座標系中就有相關性了！有趣的是，三點一定共面，也就是說三維空間中任意三點中心化後都是線性相關的，一般來講n維空間中的n個點一定能在一個n-1維子空間中分析！

上一段文字中，認爲把數據降維後並沒有丟棄任何東西，因爲這些數據在平面以外的第三個維度的分量都爲0。現在，假設這些數據在z'軸有一個很小的抖動，那麼我們仍然用上述的二維表示這些數據，理由是我們可以認爲這兩個軸的信息是數據的主成分，而這些信息對於我們的分析已經足夠了，z'軸上的抖動很有可能是噪聲，也就是說本來這組數據是有相關性的，噪聲的引入，導致了數據不完全相關，但是，這些數據在z'軸上的分佈與原點構成的夾角非常小，也就是說在z'軸上有很大的相關性，綜合這些考慮，就可以認爲數據在x',y' 軸上的投影構成了數據的主成分！

課堂上老師談到的特徵選擇的問題，其實就是要剔除的特徵主要是和類標籤無關的特徵。而這裏的特徵很多是和類標籤有關的，但裏面存在噪聲或者冗餘。在這種情況下，需要一種特徵降維的方法來減少特徵數，減少噪音和冗餘，減少過度擬合的可能性。

PCA的思想是將n維特徵映射到k維上（k<n），這k維是全新的正交特徵。這k維特徵稱爲主成分，是重新構造出來的k維特徵，而不是簡單地從n維特徵中去除其餘n-k維特徵。

二、PCA實例

現在假設有一組數據如下：

行代表了樣例，列代表特徵，這裏有10個樣例，每個樣例兩個特徵。可以這樣認爲，有10篇文檔，x是10篇文檔中“learn”出現的TF-IDF，y是10篇文檔中“study”出現的TF-IDF。

第一步，分別求x和y的平均值，然後對於所有的樣例，都減去對應的均值。這裏x的均值是1.81，y的均值是1.91，那麼一個樣例減去均值後即爲（0.69,0.49），得到

第二步，求特徵協方差矩陣，如果數據是3維，那麼協方差矩陣是

這裏只有x和y，求解得

對角線上分別是x和y的方差，非對角線上是協方差。協方差是衡量兩個變量同時變化的變化程度。協方差大於0表示x和y若一個增，另一個也增；小於0表示一個增，一個減。如果ｘ和ｙ是統計獨立的，那麼二者之間的協方差就是０；但是協方差是０，並不能說明ｘ和ｙ是獨立的。協方差絕對值越大，兩者對彼此的影響越大，反之越小。協方差是沒有單位的量，因此，如果同樣的兩個變量所採用的量綱發生變化，它們的協方差也會產生樹枝上的變化。

第三步，求協方差的特徵值和特徵向量，得到

上面是兩個特徵值，下面是對應的特徵向量，特徵值0.0490833989對應特徵向量爲，這裏的特徵向量都歸一化爲單位向量。

第四步，將特徵值按照從大到小的順序排序，選擇其中最大的k個，然後將其對應的k個特徵向量分別作爲列向量組成特徵向量矩陣。

這裏特徵值只有兩個，我們選擇其中最大的那個，這裏是1.28402771，對應的特徵向量是(-0.677873399, -0.735178656)T。

第五步，將樣本點投影到選取的特徵向量上。假設樣例數爲m，特徵數爲n，減去均值後的樣本矩陣爲DataAdjust(m*n)，協方差矩陣是n*n，選取的k個特徵向量組成的矩陣爲EigenVectors(n*k)。那麼投影后的數據FinalData爲

FinalData(10*1) = DataAdjust(10*2矩陣) x 特徵向量(-0.677873399, -0.735178656)T

得到的結果是

這樣，就將原始樣例的n維特徵變成了k維，這k維就是原始特徵在k維上的投影。

上面的數據可以認爲是learn和study特徵融合爲一個新的特徵叫做LS特徵，該特徵基本上代表了這兩個特徵。上述過程如下圖2描述：

正號表示預處理後的樣本點，斜着的兩條線就分別是正交的特徵向量（由於協方差矩陣是對稱的，因此其特徵向量正交），最後一步的矩陣乘法就是將原始樣本點分別往特徵向量對應的軸上做投影。

整個PCA過程貌似及其簡單，就是求協方差的特徵值和特徵向量，然後做數據轉換。但是有沒有覺得很神奇，爲什麼求協方差的特徵向量就是最理想的k維向量？其背後隱藏的意義是什麼？整個PCA的意義是什麼？

三、PCA推導

先看下面這幅圖：

在第一部分中，我們舉了一個學生成績的例子，裏面的數據點是六維的，即每個觀測值是6維空間中的一個點。我們希望將6維空間用低維空間表示。

先假定只有二維，即只有兩個變量，它們由橫座標和縱座標所代表；因此每個觀測值都有相應於這兩個座標軸的兩個座標值；如果這些數據形成一個橢圓形狀的點陣，那麼這個橢圓有一個長軸和一個短軸。在短軸方向上，數據變化很少；在極端的情況，短軸如果退化成一點，那只有在長軸的方向才能夠解釋這些點的變化了；這樣，由二維到一維的降維就自然完成了。

上圖中，u1就是主成分方向，然後在二維空間中取和u1方向正交的方向，就是u2的方向。則n個數據在u1軸的離散程度最大（方差最大），數據在u1上的投影代表了原始數據的絕大部分信息，即使不考慮u2，信息損失也不多。而且，u1、u2不相關。只考慮u1時，二維降爲一維。

橢圓的長短軸相差得越大，降維也越有道理。