PCA 原理

1、PCA 原理推導

假設有 M 個樣本 $x_1, x_2, ..., x_m$ ，每個樣本點 $x_i$ 含有 N 個特徵，則每個樣本數據可以表示爲： $x_i =( x^{(1)}_i, (x^{(2)}_i,..., (x^{(n)}_i)$ ，整體樣本數據在 N 維特徵空間的原始座標系爲 $I=(i_1, i_2, ..., i_n)$ ， $I$ 是一組標準正交基，即有如下性質：
$\begin{aligned} ||i_s||_2 =& \ 1 \\ i_s^T \cdot i_t =& \ 0 \ , \ s ≠ t \end{aligned}$
樣本點 $x_i$ 在原始座標系中的表示爲：
$x_i= (i_1, i_2, ...,i_n)\cdot \begin{pmatrix} x^{(1)}_i \\ x^{(2)}_i \\ \vdots \\ x^{(n)}_i \end{pmatrix} \ , \ i=1,2,3...,m$
假設進行線性變換之後得到的新的座標系爲 $J=(j_1, j_2, ..., j_{n'})$ ， $J$ 同樣是一組標準正交基，即滿足上述正交基的性質。則樣本點 $x_i$ 在新的座標系中的近似表示爲：
$\mathop{{x_i}}\limits^{\sim } = (j_1, j_2, ...,j_{n'})\cdot \begin{pmatrix} z^{(1)}_i \\ z^{(2)}_i \\ \vdots \\ z^{(n')}_i \end{pmatrix} \ , \ i=1,2,3...,m$
根據正交基的性質， $j_s$ 可以等價於：
$j_s= (i_1, i_2, ...,i_n)\cdot \begin{pmatrix} j_s \cdot i_1 \\ j_s \cdot i_2 \\ \vdots \\ j_s \cdot i_n \\ \end{pmatrix} \ , \ s=1,2,3...,m'$
令：
$w_s= \begin{pmatrix} j_s \cdot i_1 \\ j_s \cdot i_2 \\ \vdots \\ j_s \cdot i_n \\ \end{pmatrix} \ , \ s=1,2,3...,m'$
則 $w_s$ 是一個新的基向量，其各分量就是基向量 $j_s$ 在原始座標系 $(i_1, i_2, ..., i_n)$ 中的投影。所以， $j_s$ 可以寫爲：
$j_s = (i_1, i_2, ...,i_n)\cdot w_s \ , \ s =1 ,2 ,..., n'$
根據正交基性質，有 $||w_s||_2\ =\ 1 \ , \ w_s^T \cdot w_t = \ 0 \ , \ s≠t$ 。

類似的有 $w_1,w_2,...,w_{n'}$ ，將其寫成矩陣形式爲：
$W = [w_1, w_2, ...,w_{N'}] = \begin{pmatrix} j_1 \cdot i_1 & j_2 \cdot i_1 & \cdots & j_{n'} \cdot i_1\\ j_1 \cdot i_2 & j_2 \cdot i_2 & \cdots & j_{n'} \cdot i_2\\ \vdots & \vdots & \ddots & \vdots \\ j_1 \cdot i_n & j_2 \cdot i_n & \cdots & j_{n'} \cdot i_n\\ \end{pmatrix}$
則 W 就稱爲座標變換矩陣，且有 $W = W^T, \ WW^T =I$ 。根據座標變換矩陣，新座標系和原始座標系直接的關係可以表示爲：
$(j_1, j_2, ...,j_{n'}) = (i_1, i_2, ...,i_n)\cdot W$
將其帶入前面 $x_i$ 在新座標系中的近似表達式，可得：
$\mathop{{x_l}}\limits^{\sim} = (j_1, j_2, ...,j_{n'})\cdot \begin{pmatrix} z^{(1)}_i \\ z^{(2)}_i \\ \vdots \\ z^{(n')}_i \end{pmatrix} = (i_1, i_2, ...,i_n) W \cdot \begin{pmatrix} z^{(1)}_i \\ z^{(2)}_i \\ \vdots \\ z^{(n')}_i \end{pmatrix}$
再將其與 $x_i$ 在原始座標系中的表達式 $x_i = (i_1, i_2, ...,i_n)\cdot \begin{pmatrix}x^{(1)}_i \\ x^{(2)}_i \\\vdots \\ x^{(n)}_i \end{pmatrix}$ 比較可知，通過座標變換來降維，相當於是用 $Wz_i$ 去近似表示了 $x_i$ ，使：
$x_i = W z_i$
即：
$z_i = W^{-1}x_i=W^Tx_i$
則有：
$z_i = w_s^Tx_i \ , \quad\quad\quad\quad s=1,2,3...,n'$

一般， $n'$ 會遠小於 $n$ ，這樣就可以達到降維的目的了。將維度由 $M$ 降到 $M'$ ，相當於人爲的丟棄了部分座標。我們的要求是：基於將爲後的座標重構樣本時，得到的重構樣本與原始原本座標儘量相同。對於樣本點 $x_i$ 來說，即要使 $W z_i$ 和 $x_i$ 的距離最小化，推廣到整體樣本點，即：
$min \sum\limits_{i=1}^M|| W z_i - x_i ||^2_2$
先計算 $|| W z_i - x_i ||^2_2$ ，即
$\sum\limits_{i=1}^M|| W z_i - x_i ||^2_2 \\ \begin{aligned} &= (\sum\limits_{i=1}^Mx_i^Tx_i) - tr[W^T(\sum\limits_{i=1}^Mx_i^Tx_i)W] \\ &= (\sum\limits_{i=1}^Mx_i^Tx_i) - tr(W^TXX^TW) \end{aligned}$
因爲對於給定 M 個樣本， $\sum\limits^n_{i=1}x_i^Tx_i$ 是一個固定值，因此最小化上面的結果等價於：
$min \ - tr(W^TXX^TW) \\ s.t. \quad W^TW=I$
構造拉格朗日函數：
$L(W) = - tr(W^TXX^TW) + \lambda(W^TW-I)$
對 $W$ 求導，可得：

$-XX^TW + \lambda W = 0$

移項可得；
$XX^TW = \lambda W$

可以看出，座標變換矩陣 $W$ 爲 $XX^T$ 的 $M'$ 個特徵向量組成的矩陣，而 $\lambda$ 爲 $XX^T$ 的特徵值。當我們將原始數據集從 $N$ 維降到 $N’$ 維時，只需要找到 $XX^T$ 最大的 $N’$ 個特徵值對應的特徵向量，將其組成座標變換矩陣（投影矩陣） $W$ ，然後利用 $z_i = W^Tx_i$ 即可實現降維的目的。

文中實例及參考：

《機器學習基礎》

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【Python機器學習】之 PCA 算法（一）

PCA 原理

1、PCA 原理推導

vim 自動格式化代碼快捷鍵

【Python機器學習】之 PCA 算法（一）

HDFS 客戶端的安裝與使用

Navicat 連接 MySQL 失敗 : 1130 - Host xxx is not allowed to connect to this MySQL server

【Python機器學習】之 SVM 支持向量機算法（二）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結