一、主成分分析
1、定義
PCA(Principal Component Analysis),即主成分分析方法,是一種使用最廣泛的數據降維算法。
主成分分析在減少需要分析的指標同時,儘量減少原指標包含信息的損失,以達到對所收集數據進行全面分析的目的。由於各變量之間存在一定的相關關係,因此可以考慮將關係緊密的變量變成儘可能少的新變量,使這些新變量是兩兩不相關的,那麼就可以用較少的綜合指標分別代表存在於各個變量中的各類信息。主成分分析與因子分析就屬於這類降維算法。
注:主成分分析會損失信息,只是儘可能的減少損失,數據還原後的信息與原信息是無法一一對應。
2、步驟
第一步:樣本歸0。將樣本進行均值歸0(demean)。
第二步:找到樣本點映射後方差最大的單位向量ω。
求ω,使得最大。如果是n維數據,則有。
二、PCA算法的實現
1、數學原理
求梯度。