數據降維:主成分分析法

前言

什麼叫做主成分分析法,我們先看一張圖橢圓的圖,如果讓你找一條線,使得橢圓上所有點在該線上映射的點最分散,保留下來的信息最多,你會怎麼選擇這條線?若是下圖,會選擇水平線,這是用一維的方式去儘可能多的表示二維的數據,那麼多維的數據呢,是否可以用較低維的數據儘可能表示。

m17

如何用二維的平面去儘可能表示一個橢球面呢?

m17

思想

主成分分析法是一種統計方式,簡化數據的方式,是一種線性變換,把數據變換到新的座標系中,使得任意投影的第一大方差映射到第一主成分上,第二大方差映射到第二主成分上。如果捨棄高維的主成分,一般可以達到保留對方差貢獻最大的特徵,在一些方面上,可以保留數據的主要特徵,當然,爲了數據更好看,我們會把座標軸的中心移到數據的中心,這可以讓數據處理起來更方便。

高斯分佈

在數學上

在數學上,我們用 \(L^2\) 範數的平方(\(L^2\)範數的平方與其本身在相同位置取得最小值,單調遞增,性質更好)來計算,x 爲輸入,\(c^*\) 爲最優編碼:

\[c^*=(L^2)^2=argmin_c||x-g(c)||_2^2 \\\\ =(x-g(c))^T(x-g(c)) \\\\ =x^Tx-2x^Tg(c)+g(c)^Tg(c) \\\\ =argmin_c-2x^TDc+c^TI_lc \\\\ (其中c=f(x),g(c)=Dc) \\\\ \therefore\nabla_c(-2x^TDc+c^Tc)=0 \\\\ c=f(x)=D^Tx \]

由上可知,若要得到c只需要一個矩陣乘法。定義重構操作:

\[r(x)=g(f(x))=DD^Tx \\\\ D^*=argmin_D\sqrt{\sum_{i,j}(x_j^{(i)}-r(x^{(i)})_j)^2} \\\\ 其中D^TD=I_l \]

經過複雜的 推導,用數學歸納法可以證明,矩陣 D 可以由前 \(X^TX\) 的前 \(l\) 個最大的特徵值對應的特徵向量組成。

總結

主成分分析法主要用於數據降維,目標爲儘量減少原數據的損失的情況下,儘可能減少數據量。

  • 本文首發自RAIS
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章