前言
什麼叫做主成分分析法,我們先看一張圖橢圓的圖,如果讓你找一條線,使得橢圓上所有點在該線上映射的點最分散,保留下來的信息最多,你會怎麼選擇這條線?若是下圖,會選擇水平線,這是用一維的方式去儘可能多的表示二維的數據,那麼多維的數據呢,是否可以用較低維的數據儘可能表示。
如何用二維的平面去儘可能表示一個橢球面呢?
思想
主成分分析法是一種統計方式,簡化數據的方式,是一種線性變換,把數據變換到新的座標系中,使得任意投影的第一大方差映射到第一主成分上,第二大方差映射到第二主成分上。如果捨棄高維的主成分,一般可以達到保留對方差貢獻最大的特徵,在一些方面上,可以保留數據的主要特徵,當然,爲了數據更好看,我們會把座標軸的中心移到數據的中心,這可以讓數據處理起來更方便。
在數學上
在數學上,我們用 \(L^2\) 範數的平方(\(L^2\)範數的平方與其本身在相同位置取得最小值,單調遞增,性質更好)來計算,x 爲輸入,\(c^*\) 爲最優編碼:
由上可知,若要得到c只需要一個矩陣乘法。定義重構操作:
經過複雜的 推導,用數學歸納法可以證明,矩陣 D 可以由前 \(X^TX\) 的前 \(l\) 個最大的特徵值對應的特徵向量組成。
總結
主成分分析法主要用於數據降維,目標爲儘量減少原數據的損失的情況下,儘可能減少數據量。
- 本文首發自RAIS