● 每週一言

評論家通常比實幹家來的容易。

導語

上一節介紹了什麼是降維，以及降維解決的問題。本節將介紹線性降維中的主成分分析PCA的具體算法思想和步驟。

主成分分析，顧名思義就是提取出主要的成分。直觀上理解，降維其實就是從稀疏龐大的特徵維度上提取出具有主要影響力的維度。

PCA是一種常用的降維技術，其思想是將N維特徵空間映射到K維特徵空間上（K < N）。這K維特徵兩兩正交，正交可以理解爲互不依賴，在空間上表現爲垂直。

PCA的處理過程按順序劃分包括標準化、協方差矩陣、特徵值分解 和 K值選擇 四個部分，下面我們對這四個部分逐一進行講解。

特徵標準化 標準化的目的是防止極大極小值帶來的映射誤差，其具體操作方法是對每一維的特徵值進行“減均值除以標準差”的變換。需要特別注意的一點是，標準化的參數只能在訓練集而不是測試集上計算，避免“先知”和數據“穿越”。

計算協方差矩陣 我們知道，方差是衡量一維數據穩定性的指標，具體是指數據偏離均值的程度。協方差則是多維情況，衡量兩兩維度之間的變化趨勢是否一致。

特徵值分解 特徵值分解得到N個特徵值向量，每一個向量代表映射空間的一個維度。一般特徵值分解只適用於方陣，因此通常使用適用於任意矩陣的 奇異值分解SVD 方法來獲得這N個特徵值向量。

K值選擇 得到N個N維特徵向量後，需要從中選出K個向量做特徵空間映射。選擇K值的一種方法爲：根據奇異值分解得到的對角陣S，對角線求和作爲分母，對角線從上至下加和K個值作爲分子，保證這個分數值在0.95以上的最大K值，即爲合適的K值。

有了這K個N維特徵向量之後，便能將N維原特徵空間映射到K維特徵空間了。

以上便是主成分分析的講解，敬請期待下節內容。

感謝各位的耐心閱讀，後續文章於每週日奉上，敬請期待。歡迎大家關注小鬥公衆號 對半獨白！