詳解PCA（主成分分析）原理

在我們之前分類器的討論中，如SVM、貝葉斯判別等，都假定已給出了特徵向量維數確定的樣本集，其中各樣本的每一維都是該樣本的一個特徵。然而不同的特徵對於分類器設計的影響是不同的，如果將數目很多的測量值不做分析，全部直接用作分類特徵，不但耗時，而且會影響到分類的效果，產生“特徵維數災難”問題。因此，我們需要對特徵進行選擇和提取，即“降維”。

簡介

PCA，全名主成分分析（Principal Component Analysis），又稱爲K-L變換，是一種特徵提取的方法。與簡單地刪掉某 $n - k$ 個特徵不同，PCA將原來的特徵做正交變換，獲得的每個數據都是原來 $n$ 個數據的線性組合，然後從新的數據中選出少數幾個，使其儘可能多地反映各類模式之間的差異。而這些特徵間又儘可能相互獨立，則比單純的選擇方法更靈活、更有效。而PCA就是一種適用於任意概率密度函數的正交變換。

PCA的離散展開式

設一連續的隨機實函數 $\mathbf{x}(t), T_1 \le t \le T_2$ ，則 $\mathbf{x}(t)$ 可用已知的正交函數集 $\{\phi_j(t), j = 1, 2, \dots \}$ 的線性組合來展開，即

$\begin{aligned} \mathbf{x}(t) &= a_1\phi_1(t) + a_2\phi_2(t) + \cdots + a_j\phi_j(t) + \cdots \\ &= \sum_{j = 1}^{\infty}a_j\phi_j(t), \quad T_1 \le t \le T_2\\ \end{aligned}$

式中， $a_j$ 爲展開式的隨機係數， $\phi_j(t)$ 爲一連續的正交函數，它應滿足，

$\int_{T_1}^{T_2} \phi_i(t)\tilde{\phi}_j(t) = \left\{ \begin{aligned} &0, \quad if \ i \ne j, \\ &1, \quad if \ i == j. \\ \end{aligned} \right.$

其中， $\tilde{\phi}_j(t)$ 爲 $\phi_j(t)$ 的共軛複數式。

將上式寫成離散的正交函數形式，使連續隨機函數 $\mathbf{x}(t)$ 和連續正交函數 $\phi_j(t)$ 在區間 $T_1 \le t \le T_2$ 內被等間隔採樣爲 $n$ 個離散點，即，

$\begin{aligned} \mathbf{x}(t) &\to \{\mathbf{x}(1), \mathbf{x}(2), \dots \mathbf{x}(n)\} \\ \phi_j(t) &\to \{\phi_j(1), \phi_j(2), \dots \phi_j(n)\} \\ \end{aligned}$

寫成向量形式，

$\begin{aligned} \mathbf{x} &= (\mathbf{x}(1), \mathbf{x}(2), \dots, \mathbf{x}(n))^{T} \\ \phi_j &= (\phi_j(1), \phi_j(2), \dots, \phi_j(n))^{T} \\ \end{aligned}$

將原展開式取 $n$ 項近似，有，

$\mathbf{x} = \sum_{j = 1}^{n}a_j \phi_j = \Phi\mathbf{a}, \quad T_1 \le t \le T_2$

其中， $\mathbf{a}$ 爲展開式中隨機係數的向量形式，即

$\mathbf{a} = (a_1, a_2, \dots, a_n)^{T}$

$\Phi$ 是一 $n \times n$ 的矩陣，

$\Phi = (\phi_1, \phi_2, \dots, \phi_n) = \left[ \begin{aligned} &\phi_1(1) \quad &\phi_2(1) \quad &\dots \quad &\phi_n(1) \\ &\phi_1(2) \quad &\phi_2(2) \quad &\dots \quad &\phi_n(2) \\ &\dots \quad &\dots \quad &\dots \quad &\dots \\ &\phi_1(n) \quad &\phi_2(n) \quad &\dots \quad &\phi_n(n) \\ \end{aligned} \right]$

其中，每一列爲正交函數集中的一個函數，小括號內的序號爲正交函數的採樣點次序。因此， $\Phi$ 實質上是由 $\phi_j$ 向量組成的正交變換矩陣，它將 $\mathbf{x}$ 變換成 $\mathbf{a}$ 。

正交向量集的確定

在前面的討論中，我們討論了PCA的離散展開式，其實際上就是將原樣本 $\mathbf{x}$ 變換爲 $\mathbf{a}$ 。而變換的重點則是正交向量集 $\Phi$ 的確定。

在直接討論正交向量集 $\Phi$ 之前，我們不妨先看看其他基本參量。設隨機向量 $\mathbf{x}$ 的總體自相關矩陣爲 $R = E\{\mathbf{x}\mathbf{x}^{T}\}$ ，由

$\mathbf{x} = \sum_{j = 1}^{n}a_j \phi_j = \Phi\mathbf{a}, \quad T_1 \le t \le T_2$

將 $\mathbf{x} = \Phi\mathbf{a}$ 代入 $R = E\{\mathbf{x}\mathbf{x}^{T}\}$ ，得

$R = E\{\Phi\mathbf{a}\mathbf{a}^{T}\Phi^{T}\} = \Phi E\{\mathbf{a}\mathbf{a}^{T}\}\Phi^{T}$

因爲我們希望向量 $\mathbf{a}$ 的各個不同分量應統計獨立，即應使 $(a_1, a_2, \dots, a_j, \dots, a_n)$ 滿足以下關係，

$E(a_ia_j) = \left\{ \begin{aligned} &\lambda_i, \quad &if \ i = j \\ &0, \quad &if \ i \ne j \\ \end{aligned} \right.$

寫成矩陣形式，應使： $E\{a a^{T}\} = D_{\lambda}$ ，其中 $D_{\lambda}$ 爲對角形矩陣，其互相關成分均爲0，即，

$D_{\lambda} = \left[ \begin{aligned} &\lambda_1 \quad &0 \quad &\dots \quad &\dots \quad &0 \\ &0 \quad &\lambda_2 \quad &\dots \quad &\dots \quad &0 \\ &\dots \quad &\dots \quad &\dots \quad &\dots \quad &\dots \\ &0 \quad &0 \quad &\dots \quad &\dots \quad &\lambda_n \\ \end{aligned} \right]$

則，

$R = \Phi D_{\lambda}\Phi^{T}$

由於 $\Phi$ 中的各個向量 $\phi_j$ 都相互歸一正交，故有，

$R\Phi = \Phi D_{\lambda} \Phi^{T} \Phi = \Phi D_{\lambda}$

其中， $\phi_j$ 向量對應爲，

$R \phi_j = \lambda_j\phi_j$

由矩陣知識可以看出， $\lambda_j$ 是 $\mathbf{x}$ 的自相關矩陣 $R$ 的特徵值， $\phi_j$ 是對應的特徵向量。因爲 $R$ 是實對稱矩陣，其不同特徵值對應的特徵向量應正交，即，

$\phi_i^{T} \phi_j = \left\{ \begin{aligned} &0 \quad &if \ i \ne j \\ &1 \quad &if \ i = j \\ \end{aligned} \right.$

計算步驟

好了，羅裏吧嗦說了這麼多，大家可能會有疑問。PCA到底是什麼？到底怎麼做啊？

首先，PCA用於特徵選擇相當於一種線性變換，若從 $\Phi$ 這 $n$ 個特徵向量中取出 $m$ 個組成變換矩陣 $\hat{\Phi}$ ，即

$\hat{\Phi} = (\phi_1, \phi_2, \dots, \phi_m), m < n$

此時， $\hat{\Phi}$ 是一個 $n \times m$ 維矩陣， $\mathbf{x}$ 是 $n$ 維向量，經過 $\hat{\Phi}^{T}\mathbf{x}$ 變換，即得到降維爲 $m$ 的新向量。

因此，PCA的計算步驟如下，

計算整體樣本的均值，並對全部樣本減去均值，以使均值成爲新座標軸的原點；
求隨機向量 $\mathbf{x}$ 的自相關矩陣： $R = E\{\mathbf{x}\mathbf{x}^{T}\}$ ；
求出矩陣 $R$ 的特徵值 $\lambda_j$ 和對應的特徵向量 $\phi_j, j = 1, 2, \dots, n$ ，得矩陣
$\Phi = (\phi_1, \phi_2, \dots, \phi_n)$
從中選取按照特徵值大小，降序選取前 $m$ 個特徵向量 $\phi_j$ ，構成矩陣 $\hat{\Phi}$ ；
計算展開式係數
$\mathbf{a} = \hat{\Phi}^{T}\mathbf{x}$

有效性

好了，PCA的計算步驟我們清楚了。可是，它爲什麼有效呢？它是如何保證降維後的特徵向量與原特徵向量的誤差儘可能地小的？不急，我們接下來就來證明這一點。

我們已知，對於 $\mathbf{x} = \sum_{j = 1}^{n}a_j\phi_j$ ，現取 $m$ 項，對略去的係數項用預先選定的常數 $b$ 代替，此時對 $\mathbf{x}$ 的估計值爲，

$\hat{\mathbf{x}} = \sum_{j = 1}^{m}a_j\phi_j + \sum_{j = m + 1}^{n}b\phi_j$

則產生的誤差爲，

$\Delta{\mathbf{x}} = \mathbf{x} - \hat{\mathbf{x}} = \sum_{j = m + 1}^{n}(a_j - b)\phi_j$

則 $\Delta{\mathbf{x}}$ 的均方誤差爲，

$\bar{\varepsilon}^2 = E\{||\Delta \mathbf{x}||\}^2 = \sum_{i = m + 1}^{n} \{E(a_j - b)^2\}$

要使 $\bar{\varepsilon}^2$ 最小，則對 $b$ 的選擇應滿足，

$\frac{\partial}{\partial b}E(a_j - b)^2 = -2[E(a_j - b)] = 0$

因此， $b = E(a_j)$ ，即對省略掉的a中的分量，應使用它們的數學期望來代替，此時的誤差爲，

$\begin{aligned} \bar{\varepsilon}^2 &= \sum_{j = m + 1}^{n}E[(a_j - E\{a_j\})^{2}] \\ &= \sum_{j = m + 1}^{n}\phi_{j}^{T}E[(\mathbf{x} - E\{\mathbf{x}\})(\mathbf{x} - E\{\mathbf{x}\})^{T}]\phi_j \\ &= \sum_{j = m + 1}^{n}\phi_j^TC_{\mathbf{x}}\phi_j\\ \end{aligned}$

其中， $C_{\mathbf{x}}$ 爲 $\mathbf{x}$ 的協方差矩陣。設 $\lambda_j$ 爲 $C_{\mathbf{x}}$ 的第 $j$ 個特徵值， $\phi_j$ 是與 $\lambda_j$ 對應的特徵向量，則

$C_{\mathbf{x}}\phi_j = \lambda_j\phi_j$

由於

$\phi_j^{T}C_{\mathbf{x}}\phi_j = \lambda_j$

因此，

$\bar{\varepsilon}^2 = \sum_{j = m + 1}^{n}\phi_j^TC_{\mathbf{x}}\phi_j = \sum_{j = m + 1}^{n}\lambda_j$

由此可以看出， $\lambda_j$ 值越小，誤差也越小。因此，我們也可以說對於PCA，最小化樣本均方誤差等價於最大化樣本方差。

總結

PCA是在均方誤差最小的意義下獲得數據壓縮（降維）的最佳變換，且不受模式分佈的限制。對於一種類別的模式特徵提取，它不存在特徵分類問題，只是實現用低維的 $m$ 個特徵來表示原來高維的 $n$ 個特徵，使其誤差最小，亦即使其整個模式分佈結構儘可能保持不變。

參考文獻

黃慶明，《第四章.ppt》

郭嘉豐，《無監督學習——維度約簡》

詳解PCA（主成分分析）原理

簡介

PCA的離散展開式

正交向量集的確定

計算步驟

有效性

總結

參考文獻

深入淺出SVM（支持向量機）

《算法導論》——十分鐘瞭解快速排序！

《算法導論》——簡潔明瞭的插入排序算法

詳解PCA（主成分分析）原理

《算法導論》——矩陣乘法Strassen算法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結