主成分分析（Principal Components Analysis）

原創

FlameAlpha

2020-05-12 18:06

主成分分析PCA(Principal Component Analysis),作用是:

聚類 Clustering：把複雜的多維數據點,簡化成少量數據點,易於分簇
降維：降低高維數據,簡化計算,達到數據降維,壓縮,降噪的目的

PCA 的目的就是找到一個低維映射空間，使得數據映射後方差最大。

理論實現：

首先對樣本空間爲 $d$ 維全部的數據中心化，使得均值爲 0，即將所有的樣本與樣本均值相減獲得新的樣本：

$\mathbf { x } _ { i } = \mathbf { x } _ { i } - \mu$

也就是說轉換後：

$\frac { 1 } { N } \sum _ { i = 1 } ^ { N } \mathbf { x } _ { i } = 0_d$

知識補充：

求向量 u 在向量 v 上的投影：

那麼根據上圖可以列出以下公式
$\begin{aligned} u ^ { \prime } & = \frac { d } { | v | } v \\ d & = | u | \cos \theta \\ \cos \theta & = \frac { u^T \cdot v } { | u | | v | } \end{aligned}$
所以可以解出向量 $u$ 在向量 $v$ 上的投影 $u^\prime$ 爲：
$u^\prime = \frac { u ^ T \cdot v } { | v | ^ { 2 } } v$
那麼將向量 $v$ 所在直線視爲一維空間，那麼向量 $u$ 映射在該維度的表示爲
$u^v = \frac { u ^ T \cdot v } { | v | } = \frac { v ^ T \cdot u } { | v | }$
也就是說映射後的長度（有方向）成爲向量 $u$ 映射在該維度的表示。

那麼現在求取映射後空間，先考慮映射到一維空間，也就是說向一個向量做投影，假如現在向向量 $u _ { 1 }$ 做投影。

那麼由於一開始的中心化操作，使得映射後均值仍然爲零：

$\frac { 1 } { n } \sum _ { i = 1 } ^ { n } \frac { u _ { 1 } ^ { T } } { | u _ { 1 } | } \mathbf x _ { i } = \frac { u _ { 1 } ^ { T } } { | u _ { 1 } | } \sum _ { i = 1 } ^ { n } \frac { 1 } { n } \mathbf x _ { i } = 0$

那麼映射後的方差有：

$\frac { 1 } { n } \sum _ { i = 1 } ^ { n } \left( \frac { u _ { 1 } ^ { T } } { | u _ { 1 } | } \mathbf x _ { i } - 0\right) ^ { 2 } = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } \frac { u _ { 1 } ^ { T } } { | u _ { 1 } | } \mathbf x _ { i } \mathbf x _ { i } ^ { T } \frac { u _ { 1 } } { | u _ { 1 } | } = \frac { u _ { 1 } ^ { T } } { | u _ { 1 } | } \frac { 1 } { n } \sum _ { i = 1 } ^ { n } \mathbf x _ { i } \mathbf x _ { i } ^ { T } \frac { u _ { 1 } } { | u _ { 1 } | } =\frac { u _ { 1 } ^ { T } } { | u _ { 1 } | }S \frac { u _ { 1 } } { | u _ { 1 } | }$

其中 $S$ 爲數據集的協方差矩陣：

$S = \frac { 1 } { n } \sum _ { i , j = 1 } ^ { n } \mathbf x _ { i } ^ { T } \cdot \mathbf x _ { j }$

現在想要映射在該一維空間後數據的方差最大，那麼該優化問題爲：

$\begin{aligned} \max _ { u _ { 1 } } \quad & u _ { 1 } ^ { T } \cdot S \cdot u _ { 1 } \\ \text { s.t.} \quad & \left\| u _ { 1 } \right\| _ { 2 } ^ { 2 } = 1 \end{aligned}$

其中爲了方便，將映射向量的長度定爲一作爲約束條件。爲了去掉這一約束條件，使用拉格朗日乘數法轉換該最優化問題：

$\max _ { u _ { 1 } } \left\{ u _ { 1 } ^ { T } \cdot S \cdot u _ { 1 } + \lambda \left( 1 - \left\| u _ { 1 } \right\| _ { 2 } ^ { 2 } \right) \right\}$

對於凸優化問題，在最優點出導數爲零，所以最優解的必要條件爲：

$2 u _ { 1 } \cdot S + \lambda \left( - 2 u _ { 1 } \right) = 0$

也就是說：

$S u _ { 1 } = \lambda u _ { 1 }$

可以看出 $u _ { 1 }$ 是協方差矩陣 $S$ 的一個特徵向量，那麼現在代入到原最優化問題：

$\begin{aligned} \max _ { u _ { 1 } } \quad & u _ { 1 } ^ { T } \cdot \lambda \cdot u _ { 1 } \\ \text { s.t.} \quad & \left\| u _ { 1 } \right\| _ { 2 } ^ { 2 } = 1 \end{aligned}$

可以進一步轉換爲：

$\begin{aligned} \max _ { u _ { 1 } } \quad & \lambda \\ \text { s.t.} \quad & \left\| u _ { 1 } \right\| _ { 2 } ^ { 2 } = 1 \end{aligned}$

也就是說在約束條件下希望該特徵值最大。那麼推廣到多維空間映射，仍然適用。那麼最佳的多維空間則由 Top $d^{\prime}$ 特徵值（最大的 $d^{\prime}$ 個特徵值）所對應的特徵向量構成。

那麼PCA的具體實現流程：

$\begin{aligned} & \text { 1. let }\overline { \mathbf { x } } = \frac { 1 } { N } \sum _ { n = 1 } ^ { N } \mathbf { x } _ { n } , \text { and let } \mathbf { x } _ { n } \leftarrow \mathbf { x } _ { n } - \overline { \mathbf { x } } , X^T = [\mathbf x_1,\cdots,\mathbf x_N] \\ & \text { 2. calculate } \tilde { d } \text { top eigenvectors } \mathbf { w } _ { 1 } , \mathbf { w } _ { 2 } , \ldots , \mathbf { w } _ { \tilde { d } } \text { of } \mathbf { X } ^ { T } \mathbf { X } \\ & \text { 3. return feature transform } \mathbf { \Phi } ( \mathbf { x } ) = \mathbf { W } ( \mathbf { x } - \overline { \mathbf { x } } ) \end{aligned}$

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

主成分分析（Principal Components Analysis）

ollama使用

Window 安裝 Python 失敗 0x80070643，發生嚴重錯誤

TiDB Vector 太香啦：以圖搜圖初體驗！

《最新出爐》系列入門篇-Python+Playwright自動化測試-41-錄製視頻

多層感知器分類器的 Tensorflow 實現

Tensorflow 之張量操作

Tensorflow 之張量類型

Tensorflow 之 CPU計算效率和GPU計算效率對比

梯度提升機（Gradient Boosting Machine）之 LightGBM

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結