一、主成分分析
1、定义
PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法。
主成分分析在减少需要分析的指标同时,尽量减少原指标包含信息的损失,以达到对所收集数据进行全面分析的目的。由于各变量之间存在一定的相关关系,因此可以考虑将关系紧密的变量变成尽可能少的新变量,使这些新变量是两两不相关的,那么就可以用较少的综合指标分别代表存在于各个变量中的各类信息。主成分分析与因子分析就属于这类降维算法。
注:主成分分析会损失信息,只是尽可能的减少损失,数据还原后的信息与原信息是无法一一对应。
2、步骤
第一步:样本归0。将样本进行均值归0(demean)。
第二步:找到样本点映射后方差最大的单位向量ω。
求ω,使得最大。如果是n维数据,则有。
二、PCA算法的实现
1、数学原理
求梯度。