主成分分析（PCA）推導過程及實例

原創

2018-11-19 22:21

介紹

主成分分析（Principal Component Analysis，PCA）是一種常用的數據降維算法，可以將高維度的數據降到低維度，並且保留原始數據中最重要的一些特徵，同時去除噪聲和部分關聯特徵，從而提高數據的處理效率，降低時間成本。此外，在機器學習中，訓練樣本固定的情況下，特徵維數增加到某個臨界點後，再增加維數，反而會降低模型的預測能力（休斯現象，Hughes Phenomenon）。

降維的必要性：

機器學習是建立在統計學習上的，而數據稀疏（維度過高的情況下）對於統計學而言是一個問題
有大量模型需要依靠樣本之間的相似度才能被判定，而多數時候樣本的相似度由其在特徵空間的相互距離決定，這使得樣本密度影響了樣本的屬性
維度過多導致計算量增大，影響機器學習效率

數據降維優點：

增大了樣本的採樣密度
低維數據更容易使用
數據之間相互獨立
減少了變量的個數
提高了算法的效率
去除了噪聲
結果的解釋性更強

在PCA中，數據從原來的座標系轉換到新的座標系，在新的座標系中要求數據之間的協方差爲0（即不同維度之間的數據線性不相關），而方差儘可能的大。因此，第一座標軸是原始數據中方差最大的方向，第二個座標軸是與第一個新座標軸正交且方差次大的方向，重複該過程，直到需要的降維數。在詳細講解PCA之前，有必要先介紹協方差。

協方差

統計學裏最基本的概念有均值、方差、標準差，假設有n個樣本： $X_{1},X_{2},...,X_{n}$ ，那麼

均值： $\overline{X}=\frac{\sum_{i=1}^{N}X_{i}}{N}$

方差： $S^{2}=\frac{\sum_{i=1}^{N}(X_{i}-\overline{X})^2}{N-1}$

標準差： $S=\sqrt{\frac{\sum_{i=1}^{N}(X_{i}-\overline{X})^2}{N-1}}$

其中，方差和標準差是描述一維數據的離散程度，但現實中的數據往往是多維的，比如說學生的成績，不一定只和學習時間有關，還涉及到學習效率，學習狀態等等，這時便引入了協方差。協方差定義：

$Cov(X,Y)=\frac{\sum_{i=1}^{N}(X_{i}-\overline{X})(Y_{i}-\overline{Y})}{N-1}$

$Cov(X,Y)>0$ ，X和Y是正相關關係
$Cov(X,Y)<0$ ，X和Y是負相關關係
$Cov(X,Y)>0$ ，X和Y是線性不相關，但是不一定相互獨立哦（ $sinx$ 和 $cosx$ 線性不相關，但是它們的平方是有關係的， $sin^{2}x+cos^{2}x=1）$

不過有的協方差用的是：

$Cov(X,Y)=\frac{\sum_{i=1}^{N}(X_{i}-\overline{X})(Y_{i}-\overline{Y})}{N}$ （除以 $N$ 結果會偏小，得除以 $N-1$ 才能得到無偏估計，可以參考“爲什麼樣本方差（sample variance）的分母是 n-1？”）

數據如果有三維，協方差矩陣爲：

$C=\begin{bmatrix} cov(x,x)& cov(x,y) & cov(x,z)\\ cov(y,x) &cov(y,y) & cov(y,z)\\ cov(z,x)& cov(z,y)&cov(z,z) \end{bmatrix}$

PCA步驟

假設有m個樣本數據，每個數據是n維的，按列組成矩陣 $X_{nm}$ ，則PCA步驟如下：

均值化矩陣 $X_{nm}$ ，得到 $X=X_{nm}-\overline{X}_{nm}$
求出協方差矩陣 $C=\frac{1}{n-1}XX^T$
求出協方差矩陣 $C$ 的特徵值 $\lambda_{i}$ 和特徵向量 $w_{i}$
選取 $k$ 個最大的特徵值對應的特徵向量 $w_{1},w_{2},...,w_{k}$ ，組成矩陣 $W_{kn}$ （特徵值選擇方法： $\frac{\sum_{i=1}^{k}\lambda_{i}}{\sum_{i=1}^{n}\lambda_{i}}\ge t$ ， $t$ 越大保留的特徵值越多，按實際要求）
降維矩陣 $Y_{km} = W_{kn}X_{nm}$

PCA實例

假設：
$X_{2*5}=\begin{bmatrix} 2& 2 & 3& 5& 3\\ -1&1 & 1& 2& 2 \end{bmatrix}$

均值化： $X=X_{2*5}-\overline{X}_{2*5}=\begin{bmatrix} -1& -1 & 0& 2& 0\\ -2&0& 0& 1& 1 \end{bmatrix}$
協方差矩陣： $C=\frac{1}{5-1}XX^T=\begin{bmatrix} \frac{3}{2}& 1 \\ 1& \frac{3}{2} \end{bmatrix}$
特徵值爲： $\lambda_{1}=\frac{5}{2},\lambda_{2}=\frac{1}{2}$ ，對應的特徵向量 $w_{1}=\begin{bmatrix} 1 \\ 1\end{bmatrix},w_{2}=\begin{bmatrix} 1 \\ -1\end{bmatrix}$ ，特徵向量單位化 $w_{1}'=\begin{bmatrix} \frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} \end{bmatrix},w_{2}'=\begin{bmatrix} \frac{1}{\sqrt{2}} \\ -\frac{1}{\sqrt{2}} \end{bmatrix}$
按照特徵值大小排序，選擇最大的部分特徵，這裏選取 $\lambda_{1}$ ，此時矩陣 $W_{1*2}=\begin{bmatrix} \frac{1}{\sqrt{2}} &\frac{1}{\sqrt{2}} \end{bmatrix}$
降維矩陣 $Y_{1*5}= W_{1*2}X_{2*5}=\begin{bmatrix} \frac{1}{\sqrt{2}} &\frac{1}{\sqrt{2}} \end{bmatrix}\begin{bmatrix} -1& -1 & 0& 2& 0\\ -2&0& 0& 1& 1 \end{bmatrix}=\begin{bmatrix} -\frac{3}{\sqrt{2}} &-\frac{1}{\sqrt{2}} &0&\frac{3}{\sqrt{2}} &\frac{1}{\sqrt{2}}\end{bmatrix}$

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

主成分分析（PCA）推導過程及實例

介紹

協方差

PCA步驟

PCA實例

HTTP URL 詳解

機器學習——線性迴歸模型詳解

主成分分析（PCA）推導過程及簡單實例

Python中讀取txt文件的三種可行辦法

Windows和Ubuntu環境下修改Jupyter Notebook默認文件路徑

將csv轉換爲json，並查找json中的數據

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結