PCA的劣勢分析

PCA原理剖析
矩陣的秩 特徵向量 特徵值是什麼?
此篇博客主要分析PCA有什麼劣勢以及產生的原因,對PCA還不清楚的可以結合上面兩個博客從多角度深入瞭解PCA。

劣勢一,在對數據完全無知的情況下,PCA變換並不能得到較好的保留數據信息。

因爲PCA需要對數據進行預處理,第一步需要對其進行中心化,如果數據的尺度不統一,還需要標準化。通常的標準化方式是除以標準差。這裏可能就出出現一個問題,比如標準差很小,接近於零,尤其是被噪聲污染的數據,噪聲的標準差對數據的放大作用更顯著,而沒被噪聲污染的數據其在標準化的過程中放大作用較小。

劣勢二,對降維最終得到的數目,也就是潛在的隱變量的數目,不能很好的估計。

劣勢三,PCA原理主要是爲了消除變量之間的相關性,並且假設這種相關性是線性的,對於非線性的依賴關係則不能得到很好的結果。

使用PCA進行線性降維後樣本間的非線性相關性有可能會丟失

判斷是否是線性降維過程可以用一個線性變換表示決定。pca降維的過程可以通過數據乘以一個矩陣表示,因此就是一個樸素的線性變換。

劣勢四, PCA假設變量服從高斯分佈,當變量不服從高斯分佈(如均勻分佈)時,會發生尺度縮放與旋轉。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章