機器學習方法篇(29)------主成分分析

● 每週一言

評論家通常比實幹家來的容易。

導語

上一節介紹了什麼是降維,以及降維解決的問題。本節將介紹線性降維中的主成分分析PCA的具體算法思想和步驟。

主成分分析

主成分分析,顧名思義就是提取出主要的成分。直觀上理解,降維其實就是從稀疏龐大的特徵維度上提取出具有主要影響力的維度。

PCA是一種常用的降維技術,其思想是將N維特徵空間映射到K維特徵空間上(K < N)。這K維特徵兩兩正交,正交可以理解爲互不依賴,在空間上表現爲垂直。

fig1

PCA的處理過程按順序劃分包括標準化協方差矩陣特徵值分解K值選擇 四個部分,下面我們對這四個部分逐一進行講解。

特徵標準化 標準化的目的是防止極大極小值帶來的映射誤差,其具體操作方法是對每一維的特徵值進行“減均值除以標準差”的變換。需要特別注意的一點是,標準化的參數只能在訓練集而不是測試集上計算,避免“先知”和數據“穿越”。

fig2

計算協方差矩陣 我們知道,方差是衡量一維數據穩定性的指標,具體是指數據偏離均值的程度。協方差則是多維情況,衡量兩兩維度之間的變化趨勢是否一致。

特徵值分解 特徵值分解得到N個特徵值向量,每一個向量代表映射空間的一個維度。一般特徵值分解只適用於方陣,因此通常使用適用於任意矩陣的 奇異值分解SVD 方法來獲得這N個特徵值向量。

fig3

K值選擇 得到N個N維特徵向量後,需要從中選出K個向量做特徵空間映射。選擇K值的一種方法爲:根據奇異值分解得到的對角陣S,對角線求和作爲分母,對角線從上至下加和K個值作爲分子,保證這個分數值在0.95以上的最大K值,即爲合適的K值。

有了這K個N維特徵向量之後,便能將N維原特徵空間映射到K維特徵空間了。

fig4

以上便是主成分分析的講解,敬請期待下節內容。

結語

感謝各位的耐心閱讀,後續文章於每週日奉上,敬請期待。歡迎大家關注小鬥公衆號 對半獨白

face

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章