【溫故而知新】PCA

給定數據集:X=(x_1, x_2, ..., x_N) =\begin{bmatrix}x_{11} & x_{21} & ... & x_{N1}\\ x_{12} & x_{22} & ... & x_{N2} \\ ... \\ x_{1p} & x_{2p} & ... & x_{Np} \end{bmatrix}_{p*N}, 其中x_i \in \mathbb{R}^p, i =1,2,...,N

                    X^T=(x_1, x_2,...,x_N)^T=\begin{bmatrix}x_1^T \\ x_2^T \\ ... \\x_N^T \end{bmatrix}=\begin{bmatrix}x_{11} & x_{12} & ... & x_{1p} \\ x_{21} & x_{22} & ... & x_{2p} \\ ... \\x_{N1} & x_{N2} & ... & x_{Np} \end{bmatrix}_{N*p}

樣本均值和樣本方差的矩陣表達 

樣本均值:\bar{x}=\frac{1}{N}\sum_{i=1}^Nx_i=\frac{1}{N}(x_1, x_2, ..., x_N)\begin{bmatrix} 1 \\ 1 \\ ... \\ 1 \end{bmatrix}_{N*1}

                  \bar{X}_{p*1}=\frac{1}{N}\sum_{i=1}^Nx_i=\frac{1}{N}X^T1_N, 這裏記1_N=\begin{bmatrix}1 \\ 1 \\ ... \\ 1 \end{bmatrix}

 

樣本方差:S_{p*p}=\frac{1}{N}\sum_{i=1}^N(x_i-\bar{x})(x_i-\bar{x})^T

                          =\frac{1}{N}(x_1-\bar{x}, x_2-\bar{x}, ..., x_N-\bar{x})\begin{bmatrix}(x_1-\bar{x})^T \\ (x_2-\bar{x})^T \\ ... \\ (x_N-\bar{x})^T \end{bmatrix}

 

(x_1-\bar{x}, x_2-\bar{x}, ..., x_N-\bar{x})=(x_1, x_2, ..., x_N)-(\bar{x}, \bar{x}, ..., \bar{x})

                                                =(x_1, x_2, ..., x_N)-\bar{X}(1, 1, ..., 1)                                                   

                                                = X^T-\bar{X}1_N^T

                                                =X^T-\frac{1}{N}X^T1_N1_N^T=X^T(1_N-\frac{1}{N}1_N1_N^T)

                                               =X^T(I_N-\frac{1}{N}1_N1_N^T)

                       \begin{bmatrix}(x_1-\bar{x})^T \\ (x_2-\bar{x})^T \\ ... \\ (x_N-\bar{x})^T \end{bmatrix}=(x_1-\bar{x}, x_2-\bar{x}, ..., x_N-\bar{x})^T

                                              =\left \{X^T(I_N-\frac{1}{N}1_N1_N^T) \right \}^T

                                              =(I_N-\frac{1}{N}1_N1_N^T)^TX

H=(I_N-\frac{1}{N}1_N1_N^T)H稱之爲centering matrix, 則S=\frac{1}{N}\sum_{i=1}^N(x_i-\bar{x})(x_i-\bar{x})^T=\frac{1}{N}X^THH^TX

討論H:centering matrix的性質:

H=(I_N-\frac{1}{N}1_N1_N^T)可知,

                         H^2=H\cdot H=(I_N-\frac{1}{N}1_N1_N^T)(I_N-\frac{1}{N}1_N1_N^T)

                                               =I_N-\frac{2}{N}1_N1_N^T+\frac{1}{N^2}1_N1_N^T1_N1_N^T

                                               =I_N-\frac{1}{N}\begin{bmatrix}1 & 1 & ... & 1 \\ 1 & 1 & ... & 1 \\ ... & ... \\ 1 & 1 & ... & 1 \end{bmatrix}

                                               =(I_N-\frac{1}{N}1_N1_N^T)=H 

                   1_N1_N^T=\begin{bmatrix}1 \\ 1 \\ ... \\ 1 \end{bmatrix} \begin{bmatrix}1 & 1 & ... & 1 \end{bmatrix} =\begin{bmatrix}1 & 1 & ... & 1 \\ 1 & 1 & ... & 1 \\ ... & ... \\ 1 & 1 & ... & 1 \end{bmatrix}

                  1_N1_N^T1_N1_N^T=\begin{bmatrix}1 & 1 & ... & 1 \\ 1 & 1 & ... & 1 \\ ... & ... \\ 1 & 1 & ... & 1 \end{bmatrix}\cdot \begin{bmatrix}1 & 1 & ... & 1 \\ 1 & 1 & ... & 1 \\ ... & ... \\ 1 & 1 & ... & 1 \end{bmatrix}=\begin{bmatrix}N & N & ... & N \\ N & N & ... & N \\ ... & ... \\ N & N & ... & N \end{bmatrix}

綜上可知,S=\frac{1}{N}\sum_{i=1}^N(x_i-\bar{x})(x_i-\bar{x})^T=\frac{1}{N}X^THH^TX=\frac{1}{N}X^THX

 

最大投影方差角度

PCA的核心思想:將一組可能線性相關的變量通過正交變換成一組線性無關的變量;

  • 一箇中心:原始特徵空間的重構(相關到無關)
  • 兩個基本點:
    • 最大投影方差
    • 最小重構距離                        

首先,對所有數據樣本進行去中心化,即x_i-\bar{x}, 同時令投影方向\left \| u_1 \right \|=1, 則投影方差:\left [ (x_i-\bar{x})\cdot u_1 \right ]\left [ (x_i-\bar{x})\cdot u_1 \right ]^T, 此處(x_i-\bar{x})\cdot u_1 \right \in\mathbb{R}

損失函數J(u_1)=\frac{1}{N}\sum_{i=1}^N \left [ (x_i-\bar{x})\cdot u_1 \right ]^2  , 同時s.t. \;\; u_1^Tu_1=1

                         =\frac{1}{N}\sum_{i=1}^N \left \{ u_1^T(x_i-\bar{x})(x_i-\bar{x})^T u_1 \right \}, 因爲(x_i-\bar{x})\cdot u_1 \right \in\mathbb{R},所以可寫成這樣

                        = u_1^T\frac{1}{N}\sum_{i=1}^N(x_i-\bar{x})(x_i-\bar{x})^T u_1

                        =u_1^T\cdot S\cdot u_1

綜上可知,

                  \left\{\begin{matrix} \hat{u_1}=\arg \max u_1^TSu_1 \\ \\s.t.\; \; u_1^Tu_1=1 \; \; \; \; \; \; \; \; \;\end{matrix}\right. 

拉格朗日函數:L(u_1, \lambda)=u_1^TSu_1+\lambda(1-u_1^Tu_1)

\frac{\partial L}{\partial u_1}=2S u_1-\lambda\cdot 2u_1=0,可得Su_1=\lambda u_1,這裏u_1爲eign-vector,\lambda爲eign-value;

 

最小重構距離角度

 首先,對所有樣本進去中心化,即\tilde{x_i}=x_i-\bar{x}, 同時令投影方向\left \| u_i \right \|=1, i=1, 2, ...,p,

考慮二維的重構向量:x_i^{'} =(\tilde{x_i}u_1)\cdot u_1+(\tilde{x_i}^T u_2)\cdot u_2, 其中\tilde{x_i}u_1爲投影標量,u_1爲方向向量;如下圖所示:

更一般的情況, \tilde{x_i} \in \mathbb{R}^p, 則重構向量:x_i^{'} =\sum_{i=1}^p(\tilde{x_i}^Tu_k)\cdot u_k

降維後,\tilde{x_i} \in \mathbb{R}^q\;\;\;\;\;(q<p), 則重構向量:\hat{x_i} =\sum_{i=1}^q(\tilde{x_i}^Tu_k)\cdot u_k, 降維是丟掉了一部分信息

重構距離爲:J=\frac{1}{N}\sum_{i=1}^N \left \| x_i^{'}-\hat{x_i} \right \|

                         =\frac{1}{N}\sum_{i=1}^N \left \| \sum_{k=q+1}^{p} (\tilde{x_i}^Tu_k)\cdot u_k \right \|

                         =\frac{1}{N}\sum_{i=1}^N \sum_{k=q+1}^{p} (\tilde{x_i}^Tu_k)^2

                         =\frac{1}{N}\sum_{i=1}^N \sum_{k=q+1}^{p} ((x_i-\bar{x})^Tu_k)^2, 由上J(u_1)=\frac{1}{N}\sum_{i=1}^N \left [ (x_i-\bar{x})\cdot u_1 \right ]^2=u_1^T\cdot S\cdot u_1可知,

                         =\sum_{k=q+1}^{p} u_k^T\cdot S\cdot u_k \;\;\;\;\;(s.t.\;\;u_k^Tu_k=1)

綜上可知,

                \left\{\begin{matrix} u_k=\arg \min_{u_k} \sum_{k=q+1}^p u_k^TSu_k\\ \\ s.t.\; \; u_k^Tu_k=1 \; \; \; \; \; \; \; \; \;\; \;\; \;\; \;\; \;\; \;\; \;\; \;\; \;\end{matrix}\right.

由拉格朗日函數同理可得,Su_k=\lambda u_k

u_k=\arg \min_{u_k}\sum_{k=q+1}^{p}u_k^TSu_k=\arg\min_{u_k}\sum_{k=q+1}^p\lambda_k, 找出對重構距離影響最小的(p-q)個維度。

 

SVD 角度

S=GKG^T,GG^T=I,

K=\begin{bmatrix}k_1 & & & \\ & k_2 & & \\ & & ... & \\ & & & k_p \end{bmatrix}

HX=U\sum V^T, SVD分解,其中:U^TU=I, \;\;\;\;\; V^TV=VV^T=I,     \sum是對角矩陣;

S_{p*p}=\frac{1}{N}X^THX=X^TH^THX=(HX)^THX=(U\sum V^T)^T(U\sum V^T)

                                                       =V\sum U^T\cdot U\sum V^T=V(\sum)^2V^T

綜合S=GKG^TS=V(\sum)^2V^T, 可知,

                                                        V=G, \;\; (\sum)^2=K

T_{N*N}=HXX^TH=HXX^TH^T=HX(HX)^T=(U\sum V^T)(U\sum V^T)^T

                                                         =U\sum V^T\cdot V\sum U^T=U(\sum)^2U^T

TS有相同的特徵值:(U^TU=I\sum爲特徵值構成的對角矩陣)。

S \rightarrow 特徵分解 \rightarrow得到方向(主成分) \rightarrow 由HX\cdot V求做座標【備註:(x_i-\bar{x})u_1, (xi-\bar{x})=HX, G=V

T \rightarrow 特徵分解 \rightarrow 直接求得座標

HX\cdot V=U\sum V^T\cdot V=U\sum

T=U(\sum)^2U^T可知,

          TU\sum=U(\sum)^2U^TU\sum=U(\sum)^3=(U\sum)\cdot (\sum)^2, 其中(U\sum)=U_i(\sum)^2爲特徵值\lambda_i^2組成的對角矩陣。

U\sum爲T的特徵向量U_i組成的矩陣,Tu_i=\lambda u_i 直接求T的特徵向量,就可以直接得到座標;

N >> p 時,分解 S, 當p >> N 時,分解T

 

完,

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章