【溫故而知新】PCA

給定數據集： $X=(x_1, x_2, ..., x_N) =\begin{bmatrix}x_{11} & x_{21} & ... & x_{N1}\\ x_{12} & x_{22} & ... & x_{N2} \\ ... \\ x_{1p} & x_{2p} & ... & x_{Np} \end{bmatrix}_{p*N}$ , 其中 $x_i \in \mathbb{R}^p, i =1,2,...,N$

$X^T=(x_1, x_2,...,x_N)^T=\begin{bmatrix}x_1^T \\ x_2^T \\ ... \\x_N^T \end{bmatrix}=\begin{bmatrix}x_{11} & x_{12} & ... & x_{1p} \\ x_{21} & x_{22} & ... & x_{2p} \\ ... \\x_{N1} & x_{N2} & ... & x_{Np} \end{bmatrix}_{N*p}$ ，

樣本均值和樣本方差的矩陣表達

樣本均值： $\bar{x}=\frac{1}{N}\sum_{i=1}^Nx_i=\frac{1}{N}(x_1, x_2, ..., x_N)\begin{bmatrix} 1 \\ 1 \\ ... \\ 1 \end{bmatrix}_{N*1}$

$\bar{X}_{p*1}=\frac{1}{N}\sum_{i=1}^Nx_i=\frac{1}{N}X^T1_N$ ，這裏記 $1_N=\begin{bmatrix}1 \\ 1 \\ ... \\ 1 \end{bmatrix}$

樣本方差： $S_{p*p}=\frac{1}{N}\sum_{i=1}^N(x_i-\bar{x})(x_i-\bar{x})^T$

$=\frac{1}{N}(x_1-\bar{x}, x_2-\bar{x}, ..., x_N-\bar{x})\begin{bmatrix}(x_1-\bar{x})^T \\ (x_2-\bar{x})^T \\ ... \\ (x_N-\bar{x})^T \end{bmatrix}$

$(x_1-\bar{x}, x_2-\bar{x}, ..., x_N-\bar{x})=(x_1, x_2, ..., x_N)-(\bar{x}, \bar{x}, ..., \bar{x})$

$=(x_1, x_2, ..., x_N)-\bar{X}(1, 1, ..., 1)$

$= X^T-\bar{X}1_N^T$

$=X^T-\frac{1}{N}X^T1_N1_N^T=X^T(1_N-\frac{1}{N}1_N1_N^T)$

$=X^T(I_N-\frac{1}{N}1_N1_N^T)$

$\begin{bmatrix}(x_1-\bar{x})^T \\ (x_2-\bar{x})^T \\ ... \\ (x_N-\bar{x})^T \end{bmatrix}=(x_1-\bar{x}, x_2-\bar{x}, ..., x_N-\bar{x})^T$

$=\left \{X^T(I_N-\frac{1}{N}1_N1_N^T) \right \}^T$

$=(I_N-\frac{1}{N}1_N1_N^T)^TX$

記 $H=(I_N-\frac{1}{N}1_N1_N^T)$ ，稱之爲centering matrix，則 $S=\frac{1}{N}\sum_{i=1}^N(x_i-\bar{x})(x_i-\bar{x})^T=\frac{1}{N}X^THH^TX$

討論：centering matrix的性質：

由 $H=(I_N-\frac{1}{N}1_N1_N^T)$ 可知，

$H^2=H\cdot H=(I_N-\frac{1}{N}1_N1_N^T)(I_N-\frac{1}{N}1_N1_N^T)$

$=I_N-\frac{2}{N}1_N1_N^T+\frac{1}{N^2}1_N1_N^T1_N1_N^T$

$=I_N-\frac{1}{N}\begin{bmatrix}1 & 1 & ... & 1 \\ 1 & 1 & ... & 1 \\ ... & ... \\ 1 & 1 & ... & 1 \end{bmatrix}$

$=(I_N-\frac{1}{N}1_N1_N^T)=H$

$1_N1_N^T=\begin{bmatrix}1 \\ 1 \\ ... \\ 1 \end{bmatrix} \begin{bmatrix}1 & 1 & ... & 1 \end{bmatrix} =\begin{bmatrix}1 & 1 & ... & 1 \\ 1 & 1 & ... & 1 \\ ... & ... \\ 1 & 1 & ... & 1 \end{bmatrix}$

$1_N1_N^T1_N1_N^T=\begin{bmatrix}1 & 1 & ... & 1 \\ 1 & 1 & ... & 1 \\ ... & ... \\ 1 & 1 & ... & 1 \end{bmatrix}\cdot \begin{bmatrix}1 & 1 & ... & 1 \\ 1 & 1 & ... & 1 \\ ... & ... \\ 1 & 1 & ... & 1 \end{bmatrix}=\begin{bmatrix}N & N & ... & N \\ N & N & ... & N \\ ... & ... \\ N & N & ... & N \end{bmatrix}$

綜上可知， $S=\frac{1}{N}\sum_{i=1}^N(x_i-\bar{x})(x_i-\bar{x})^T=\frac{1}{N}X^THH^TX=\frac{1}{N}X^THX$

最大投影方差角度

PCA的核心思想：將一組可能線性相關的變量通過正交變換成一組線性無關的變量；

一箇中心：原始特徵空間的重構(相關到無關)
兩個基本點：
- 最大投影方差
- 最小重構距離

首先，對所有數據樣本進行去中心化，即 $x_i-\bar{x}$ , 同時令投影方向 $\left \| u_1 \right \|=1$ , 則投影方差： $\left [ (x_i-\bar{x})\cdot u_1 \right ]\left [ (x_i-\bar{x})\cdot u_1 \right ]^T$ , 此處 $(x_i-\bar{x})\cdot u_1 \right \in\mathbb{R}$

損失函數 $J(u_1)=\frac{1}{N}\sum_{i=1}^N \left [ (x_i-\bar{x})\cdot u_1 \right ]^2$ ，同時 $s.t. \;\; u_1^Tu_1=1$

$=\frac{1}{N}\sum_{i=1}^N \left \{ u_1^T(x_i-\bar{x})(x_i-\bar{x})^T u_1 \right \}$ , 因爲 $(x_i-\bar{x})\cdot u_1 \right \in\mathbb{R}$ ，所以可寫成這樣

$= u_1^T\frac{1}{N}\sum_{i=1}^N(x_i-\bar{x})(x_i-\bar{x})^T u_1$

$=u_1^T\cdot S\cdot u_1$

綜上可知，

$\left\{\begin{matrix} \hat{u_1}=\arg \max u_1^TSu_1 \\ \\s.t.\; \; u_1^Tu_1=1 \; \; \; \; \; \; \; \; \;\end{matrix}\right.$

拉格朗日函數： $L(u_1, \lambda)=u_1^TSu_1+\lambda(1-u_1^Tu_1)$

由 $\frac{\partial L}{\partial u_1}=2S u_1-\lambda\cdot 2u_1=0$ ，可得 $Su_1=\lambda u_1$ ，這裏爲eign-vector， $\lambda$ 爲eign-value；

最小重構距離角度

首先，對所有樣本進去中心化，即 $\tilde{x_i}=x_i-\bar{x}$ , 同時令投影方向 $\left \| u_i \right \|=1, i=1, 2, ...,p$ ,

考慮二維的重構向量： $x_i^{'} =(\tilde{x_i}u_1)\cdot u_1+(\tilde{x_i}^T u_2)\cdot u_2$ , 其中 $\tilde{x_i}u_1$ 爲投影標量，爲方向向量；如下圖所示：

更一般的情況， $\tilde{x_i} \in \mathbb{R}^p$ , 則重構向量： $x_i^{'} =\sum_{i=1}^p(\tilde{x_i}^Tu_k)\cdot u_k$

降維後， $\tilde{x_i} \in \mathbb{R}^q\;\;\;\;\;(q<p)$ , 則重構向量： $\hat{x_i} =\sum_{i=1}^q(\tilde{x_i}^Tu_k)\cdot u_k$ , 降維是丟掉了一部分信息

重構距離爲： $J=\frac{1}{N}\sum_{i=1}^N \left \| x_i^{'}-\hat{x_i} \right \|$

$=\frac{1}{N}\sum_{i=1}^N \left \| \sum_{k=q+1}^{p} (\tilde{x_i}^Tu_k)\cdot u_k \right \|$

$=\frac{1}{N}\sum_{i=1}^N \sum_{k=q+1}^{p} (\tilde{x_i}^Tu_k)^2$

$=\frac{1}{N}\sum_{i=1}^N \sum_{k=q+1}^{p} ((x_i-\bar{x})^Tu_k)^2$ , 由上 $J(u_1)=\frac{1}{N}\sum_{i=1}^N \left [ (x_i-\bar{x})\cdot u_1 \right ]^2=u_1^T\cdot S\cdot u_1$ 可知，

$=\sum_{k=q+1}^{p} u_k^T\cdot S\cdot u_k \;\;\;\;\;(s.t.\;\;u_k^Tu_k=1)$

綜上可知，

$\left\{\begin{matrix} u_k=\arg \min_{u_k} \sum_{k=q+1}^p u_k^TSu_k\\ \\ s.t.\; \; u_k^Tu_k=1 \; \; \; \; \; \; \; \; \;\; \;\; \;\; \;\; \;\; \;\; \;\; \;\; \;\end{matrix}\right.$