爲什麼機器學習(五) —— 數據降維PCA原理

在這裏插入圖片描述
因此,PCA的過程如下:
(1)白化:求樣本的均值向量,所有向量減去均值向量
(2)計算數據集的協方差矩陣
(3)求解特徵值和特徵向量
(4)按特徵值大小排序,選取前k名的特徵向量(k爲降成的維度),以這些向量爲行,構造投影矩陣
(5)新數據 = 投影矩陣*原數據

用PCA處理Iris數據集,4維降爲2維

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

#讀取數據並取數字部分
data = pd.read_csv('iris.csv')
data = np.mat(data.iloc[:,1:5])

#白化(即減去平均)
meanVal = np.mean(data,axis=0)
data = data - meanVal

#求協方差矩陣
covMat = np.cov(data,rowvar=False)

#求協方差矩陣的特徵值特徵向量
eigVal,eigVector = np.linalg.eig(covMat)
# print(eigVal)
# print(eigVector)
#從4維降到2維
refMat = eigVector[0:2]
data = np.matmul(data,refMat.T)
print(type(data))
data = data.getA()

x = list(data[:,1])
y = list(data[:,0])
print(x)
print(y)
fig = plt.figure()
ax1 = fig.add_subplot()
plt.xlabel('PCA1')
plt.ylabel('PCA2')
ax1.scatter(x,y)
plt.show()

處理結果
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章