因此,PCA的過程如下:
(1)白化:求樣本的均值向量,所有向量減去均值向量
(2)計算數據集的協方差矩陣
(3)求解特徵值和特徵向量
(4)按特徵值大小排序,選取前k名的特徵向量(k爲降成的維度),以這些向量爲行,構造投影矩陣
(5)新數據 = 投影矩陣*原數據
用PCA處理Iris數據集,4維降爲2維
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
#讀取數據並取數字部分
data = pd.read_csv('iris.csv')
data = np.mat(data.iloc[:,1:5])
#白化(即減去平均)
meanVal = np.mean(data,axis=0)
data = data - meanVal
#求協方差矩陣
covMat = np.cov(data,rowvar=False)
#求協方差矩陣的特徵值特徵向量
eigVal,eigVector = np.linalg.eig(covMat)
# print(eigVal)
# print(eigVector)
#從4維降到2維
refMat = eigVector[0:2]
data = np.matmul(data,refMat.T)
print(type(data))
data = data.getA()
x = list(data[:,1])
y = list(data[:,0])
print(x)
print(y)
fig = plt.figure()
ax1 = fig.add_subplot()
plt.xlabel('PCA1')
plt.ylabel('PCA2')
ax1.scatter(x,y)
plt.show()
處理結果