主成分分析（PCA）之去相關思路

原創

2020-05-12 13:18

預備知識

1、 $\boldsymbol x\in\R^{d\times 1}$ 爲隨機變量， $\boldsymbol x=[x^1,x^2,...,x^d]^T$ ， $E[\boldsymbol x]=\boldsymbol 0$ ，
協方差：
$Var[\boldsymbol x] = \begin{bmatrix} cov(x^{1},x^{1}) & cov(x^{1},x^{2}) &...&cov(x^{1},x^{d})\\ cov(x^{2},x^{1}) & cov(x^{2},x^{2}) &...&cov(x^{2},x^{d}) \\ cov(x^{d},x^{1}) & cov(x^{d},x^{2}) &...&cov(x^{d},x^{d}) \end{bmatrix}=E \begin{bmatrix} x^{1}x^{1} & x^{1}x^{2} &...&x^{1}x^{d}\\ x^{2}x^{1} & x^{2}x^{2} &...&x^{2}x^{d} \\ x^{d}x^{1} & x^{d}x^{2} &...&x^{d}x^{d} \end{bmatrix} =E[\boldsymbol x\boldsymbol x^T]\\ =\frac{1}{n}\sum\limits_{i=1}^n(\boldsymbol x_i\boldsymbol x_i^T) =[\boldsymbol x_1,\boldsymbol x_2,...\boldsymbol x_n][\boldsymbol x_1,\boldsymbol x_2,...\boldsymbol x_n]^T =XX^T$ 。
2、 $\boldsymbol c$ 爲常數，則 $Var[\boldsymbol x+\boldsymbol c]=Var[\boldsymbol x]$ 。
推論： $Var[\boldsymbol x-E[\boldsymbol x]]=Var[\boldsymbol x]$ 。
3、 $\boldsymbol z=W \boldsymbol x$ , 則：
$Var[\boldsymbol z]=WVar[\boldsymbol x]W^T$ 。

問題：

假設存在樣本集 $\{\boldsymbol x_i\}_{i=1}^n$ ， $\boldsymbol x_i\in\R^{d\times 1}$ ，我們想對 $\{\boldsymbol x_i\}_{i=1}^n$ 進行降維表示，並保留 $\{\boldsymbol x_i\}_{i=1}^n$ 的主要信息。

思路：

去相關方法的直觀思路，如果存在高度相關的維度，則只取其中一個即可。由於變量 $\boldsymbol x$ 的平移不影響變量 $\boldsymbol x$ 的協方差，因此假設我們已經將 $\{\boldsymbol x_i\}_{i=1}^n$ 中心化，即所有樣本已經減去其均值，則 $E[\boldsymbol x]=\boldsymbol 0$ 。

但是計算完 $\boldsymbol x_i$ 的協方差矩陣 $Var[\boldsymbol x]=XX^T$ ，可以看到相關性非常複雜，很難判斷去掉哪一個維度。可以想象，理想情況下，如果協方差矩陣是對角矩陣，則各個維度都不相關，此時方差比較大的維度包含了更多的信息（變化），然後留下方差大的維度即可。

因此可以考慮旋轉座標系，使得數據在新座標系下，各個座標軸變量不相關（幾何解釋就是，已知一個座標變量，其它座標變量完全不可預測，呈隨機分佈）。因此相當於找一個新的規範正交基，使得數據在新規範正交基上的表示（分解，投影），各個維度之間不相關。
因此可以考慮找到一個可逆變換 $W\in\R^{d\times d}$ （或者說是規範正交基），使得
$\boldsymbol z=W\boldsymbol x$
的協方差矩陣 $Var[\boldsymbol z]$ 爲對角矩陣。則
$Var[\boldsymbol z]= WVar[\boldsymbol x]W^T=WXX^T W^T$

則現在問題變爲是否存在可逆變換 $W\in\R^{d\times d}$ 使得 $XX^T$ 可以被對角化。

由於 $XX^T$ 是對稱矩陣，因此一定存在可逆變換 $P$ 使得 $XX^T$ 可以被對角化爲 $\Lambda$ ( $z$ 的協方差矩陣)[矩陣簡明教程，p28]:
$\Lambda=P^{-1}XX^TP$
且 $P$ 爲 $XX^T$ 的 $d$ 個線性無關特徵列向量組成的矩陣。當特徵列向量取正交特徵向量時有 $P^TP=I$ ， $P^{-1}=P^T$ 。
因此有 $\Lambda =P^TXX^TP$
則 $W=P^T$ 。
因此需要求得 $XX^T$ 的 $d$ 個特徵值，以及對應的 $d$ 個正交特徵向量即可得到 $W$ 。

需要注意的是這樣的新座標系或者說基 $W$ 有很多個，其中一個原因是由於基向量的順序早成的，另外是由於不變子空間基可以任意取造成，還有一個原因是每個基向量，可以被其反方向替代。

而我們只關注信息量比較大的座標軸或者基向量，也就是找方差比較大的座標軸來表示原數據。而方差比較小的座標軸，由於數據在其投影均值爲0，因此可以捨棄。這樣我們就完成了對原數據的降維近似表示。如果需要進一步壓縮，比如用少量的 $k$ 個座標軸也描述原數據，也就是保留 $k$ 個主成分，則取前 $k$ 大的特徵值（方差）對應的正交特徵向量（座標軸，單位基）組成 $P'=[\boldsymbol p_1, \boldsymbol p_2,...,\boldsymbol p_k]$ 。
$W'=P'T\in\R^{k\times d}$ 。降維後 $\boldsymbol z'=W'x$ 。

注意：
從上述過程實際可以看出，PCA過程實際蘊含了 $X^T$ (或 $X$ )的奇異值分解過程， $P$ 就是 $X^T$ (或 $X$ )的右(或左)奇異特徵向量。
對 $X^T$ 奇異值分解可以得到（任意矩陣（秩大於0）都可以進行奇異值分解）:
$X^T=UDV^T$
其中 $UU^T=I\in\R^{n\times n}$ ， $VV^T=I\in\R^{d\times d}$ 。假設 $(X^T)^TX^T\in\R^{d\times d}$ 的 $d$ 個特徵向量爲 $\{\lambda_1\geq \lambda_2\geq ...\geq \lambda_d\geq 0\}$ ，則 $X^T\in\R^{d\times n}$ 的 $d$ 個奇異值爲 $\{\sqrt\lambda_1\geq \sqrt\lambda_2\geq ...\geq \sqrt\lambda_d\geq 0\}$ ，(默認 $d<n$ ，如果 $d>n$ ，則 $X^T\in\R^{d\times n}$ 的 $n$ 個奇異值爲 $\{\sqrt\lambda_1\geq \sqrt\lambda_2\geq ...\geq \sqrt\lambda_n\geq 0\}$ )。則 $\Lambda=Diag(\lambda_1,\lambda_2, ..., \lambda_d)$ ， $D=Diag(\sqrt\lambda_1,\sqrt\lambda_2, ..., \sqrt\lambda_d)。$
且 $P=V$ 。可以看到 $XX^T=VD^TU^TUDV^T=VD^2V^T=V\Lambda V^T。$

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

主成分分析（PCA）之去相關思路

預備知識

問題：

思路：

分類迴歸樹(CART)的快速理解

熵，哈夫曼編碼，二進制

關於歸一化與標準化

主成分分析（PCA）之去相關思路

從線性方程組求解到最小二乘問題

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結