從主座標分析(PCO)到kernel PCA

PCA是一種經典的降維方法，相信大家都很熟悉PCA的原理了，PCO其實只是PCA換一種角度來做，都是在做奇異值分解。PCA做法：原始數據矩陣 , $X\in R^{n\times p}$ , 先做中心化處理得到 $\bar{X}$ ，計算方差矩陣 $S=\bar{X}^{T}\bar{X}$ ，然後計算的最大個特徵值對應的特徵向量，然後和原始特徵相乘，即得到降維的結果。爲了更清楚的顯示它的本質，將這個過程表示成矩陣。

將中心化表示成矩陣的形式， $I_{n}$ 表示單位矩陣， $1_{n}$ 表示全1 的維列向量： $\bar{X}=(I_{_{n}}-1/n1_{n}1_{n}^{T})X$

記 $H=(I_{_{n}}-1/n1_{n}1_{n}^{T})$ , 我們稱之爲中心矩陣，它的本質就是對數據做中心化處理，即數據矩陣，減去均值矩陣。它有一個很好的性質就是 $H^{n}=H$ ,即它是等冪的，可以手動驗證一下。那麼我們終於可以得到方差矩陣理想的形式了。 $S=\bar{X}^{T}\bar{X}=X^{T}HHX=X^{T}HX$ ,希望大家沒有暈。PCA其實就是在對 $X^{T}HHX$ 操作。好，重點來了，PCO馬上就呼之欲出了，它就是，是是是真的是，對 $HXX^{T}H$ 求特徵值，然後就可以直接得到降維結果了，連和數據矩陣相乘都不需要。下面來證明這一點。

假設 $ABx=\lambda x$ , 那麼 $BABx=\lambda Bx$ ，即與的特徵值一樣，特徵向量之間存在一定的關係，後面的kernel pca還要要用到這個關係。我們把 $X^{T}H$ 看作, 把看作。原來我們做pca時是求出個特徵向量之後，將其排成矩陣 $G_{q}$ , 然後 $HXG_{k}$ 就是我們的結果。現在由於 $X^{T}HHX$ 與 $HXX^{T}H$ 的特徵值之間存在一定的關係，所以如果 $G_{q}$ 是原來方差矩陣的特徵值，那麼 $HXX^{T}H$ 的特徵值就是 $HXG_{k}$ ，這說明直接對 $HXX^{T}H$ 求特徵值就得到了pca的結果，這樣是不是就直接得到了結果，有沒有很神奇呢？這裏本質上就是對 $HXX^{T}H$ 與 $X^{T}HHX$ 做奇異值分解，奇異值是一樣的。還沒有結束，我們還需要對 $HXX^{T}H$ 的特徵值做歸一化處理，這裏不是歸一化到1，我們記 $HXX^{T}H$ 的特徵值爲 $z_{i}$ , 要讓 $z_{i}^{T}z_{i}=\lambda _{i}$ , $\lambda _{i}$ 是對應的第個特徵值。我們再來總結一下PCO的做法:

記 $T=HXX^{T}H$ ,令 $z_{i}$ 是的第個特徵值，即 $Tz_{i}=\lambda _{i}z_{i}$ ,對其做歸一化處理， $z_{i}^{T}z_{i}=\lambda _{i}$ ，,那麼 $Z=(z_{1},...z_{q})$ 就是在維空間的principal coordinates。

注意上面 $HXX^{T}H$ 矩陣中存在 $XX^{T}$ , $XX^{T}$ 是樣本之間的內積，可以看作是一個線性核的核矩陣，是不是馬上就感覺可以用強大的kernel方法呢，kernel函數本質上是某個高維空間的內積，如果我們將上面的數據矩陣內積 $XX^{T}$ 用kernel矩陣代替，是不是就可以看作是在某個高維空間進行pca處理呢，因此kernel

pca 也呼之欲出了，鼓掌...。kernel方法只需要提供kernel就行了，並不需要直接用到低維空間特徵在高維空間的表示。下面來介紹一波kernel pca。

假設高維空間特徵矩陣爲,kernel 矩陣 $K=FF^{T}$ ,注意這裏只是假定高維空間矩陣,它的形式我們根本不需要知道。那麼現在是對來做PCA，但是我們根本就不知道是什麼，因此方差矩陣 $F^{T}HF$ 沒辦法來求，但是，還記得前面PCO的做法嗎，做不了 $F^{T}HF$ ，我們可以來做 $HFF^{T}H$ 啊，而 $FF^{T}$ 是已知的，就是kernel 矩陣,到這裏，是不是就一下子光明起來了呢？

$F^{T}HHFF^{T}Hv=\lambda F^{T}Hv$ , 即 $F^{T}HHF$ 對應特徵值爲 $\lambda$ 的特徵向量是 $F^{T}Hv$ ,做歸一化處理，

$u=\frac{F^{T}Hv}{||v^{T}HFF^{T}Hv||}_{2}=\lambda ^{-1/2}F^{T}Hv$

這就是pca降維時要用到的特徵向量，當對一個高維空間特徵進行降維時，首先減去均值， $f-1/nF^{T}1_{n}$ ，然後乘,

得到投影： $y=(f-1/nF^{T}1n)^{T}\lambda ^{-1/2}F^{T}Hv=\lambda ^{-1/2}f^{T}F^{T}Hv-1/nln^{T}FF^{T}Hv$ ， $f^{T}F^{T}$ 是與中每一個特徵的內積，可以利用核函數求出來，而 $FF^{T}$ 就是kernel ,是已知的，因此整個結果也就可以求出來的，這就是kernel pca, 這個過程中儘管我們用到了，但我們不需要具體知道它們是什麼，只需要一個核函數就行了，這樣就等價於在一個高維空間做了pca降維。

最後來一個總結，pca利用方差矩陣 $X^{T}HX$ 求得特徵值，pco利用 $HXX^{T}H$ 直接可以得到降維結果，因爲它們的特徵值相同，特徵向量存在對應關係，而kpca是在變換後的高維特徵空間進行pca,即需要求得 $F^{T}HF$ 的特徵值，然而我們不知道的具體形式，從而藉助 $HFF^{T}H$ 來求特徵值，做到最後，只需要核矩陣，就可以完成在高維空間的降維。

從主座標分析(PCO)到kernel PCA

如何使用 JS 判斷用戶是否處於活躍狀態

lightdb秒級增加列和刪除列（not null帶默認值）

lightdb數據庫超時相關控制參數

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

❤️‍🔥 Solon Cloud Event 新的事務特性與應用

lightdb mysql 8.0兼容之不可見主鍵

使用 JS 實現在瀏覽器控制檯打印圖片 console.image()

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（四）使用域名訪問網站應用

概率pca(probabilistic pca)的理解

矩陣範數的次微分the subdifferential of some Matrix Norms

從主座標分析(PCO)到kernel PCA

conjugate prior共軛先驗

線性判別分析Linear Discriminant Analysis

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結