sklearn.decomposition.PCA主要參數講解、對鳶尾花數據集進行PCA降維處理

1.scikit-learn PCA類介紹

class sklearn.decomposition.PCA(n_components=None, copy=True, whiten=False, svd_solver=’auto’, tol=0.0, iterated_power=’auto’, random_state=None)[source]¶

類sklearn.decomposition.PCA（n_components =無，複製=真，美白=假，svd_solver = '自動'，TOL = 0.0，iterated_power = '自動'，random_state =無

官方文檔：https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html#sklearn.decomposition.PCA

主成成分分析(Principal Component analysis, PCA)

利用數據的奇異值分解進行線性降維，將數據投影到低維空間。

它採用了基於LAPACK實現的完全SVD方法或者Halko等在2009年提出的隨機截斷SVD方法，這主要取決於輸入數據的形狀和提取成分的數量。

也可以採用基於scipy.sparse.linalg ARPACK實現的隨機截斷SVD方法。

需要注意的是本類不支持稀疏數據作爲輸入。如果要處理稀疏數據，可以參考TruncatedSVD類。

更多使用說明參考User Guide。

輸入

n_components : int, float, None or string。降維後的主成成分數量。

如果n_components沒有設置，使用所有維度。

n_components == min(n_samples, n_features)
如果n_components == 'mle'且svd_solver == 'full'，將採用Minka’s MLE方法得出最終的維度. 而使用n_components == 'mle'時將把svd_solver == 'auto'編譯爲svd_solver == 'full'.
如果0 < n_components < 1且svd_solver == 'full',則方差和需要大於n_components所指定的閾值，PCA會自動地選擇下降維數。
如果svd_solver == 'arpack', 主城成分的數量必須嚴格小於n_features和n_samples之間的最小值.因此，n_components=None的結果爲：

n_components == min(n_samples, n_features) - 1

svd_solver : string {‘auto’, ‘full’, ‘arpack’, ‘randomized’}。

auto : 基於X.shape和n_components採用默認方法的svd solver：如果輸入數據大於500x500且提取的維數小魚數據最小維數的80%，那麼將採用更加有效的randomized方法。其他情況下將計算精確完整的svd，並選擇性的截斷。
full : 通過scipy.linalg.svd，調用標準的LAPACK solver計算精確完整的svd然後選擇主成成分。
arpack : 通過solver via scipy.sparse.linalg.svds 調用ARPACK solver計算svd並截斷成n_components個主成成分。n_components嚴格滿足0 < n_components < min(X.shape)。
randomized : 通過Halko等的方法計算隨機svd。
除了以上參數外，有兩個PCA類的成員值得關注。第一個是explained_variance_，它代表降維後的各主成分的方差值。方差值越大，則說明越是重要的主成分。第二個是explained_variance_ratio_，它代表降維後的各主成分的方差值佔總方差值的比例，這個比例越大，則越是重要的主成分

2.iris數據集PCA降維實例（利用Jupyter開發工具）

import pandas as pd
import numpy as np

from sklearn.datasets import load_iris
from sklearn.decomposition import PCA
from sklearn.model_selection import cross_val_score

iris = load_iris()
df_iris = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df_iris.head()

# n_components=1
pca = PCA(n_components=1)
pca.fit(df_iris)
print('explained_variance_ratio: ', pca.explained_variance_ratio_)
print('explained_variance: ', pca.explained_variance_)
print('n_components: ', pca.n_components_)

# n_components=2
pca = PCA(n_components=2)
pca.fit(df_iris)
print('explained_variance_ratio: ', pca.explained_variance_ratio_)
print('explained_variance: ', pca.explained_variance_)
print('n_components: ', pca.n_components_)

# mle_pca
mle_pca = PCA(n_components='mle', svd_solver='full')
mle_pca.fit(df_iris)
print('explained_variance_ratio: ', mle_pca.explained_variance_ratio_)
print('explained_variance: ', mle_pca.explained_variance_)
print('n_components: ', mle_pca.n_components_)

# n_components=4
pca = PCA(n_components=4)
pca.fit(df_iris)
print('explained_variance_ratio: ', pca.explained_variance_ratio_)
print('explained_variance: ', pca.explained_variance_)
print('n_components: ', pca.n_components_)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

sklearn.decomposition.PCA主要參數講解、對鳶尾花數據集進行PCA降維處理

1.scikit-learn PCA類介紹

2.iris數據集PCA降維實例（利用Jupyter開發工具）

Navicat for Mysql建立本地連接出現 1044或1045的問題並如何解決。

Log4j日誌配置與詳細解析(log4j.properties)

PostgreSQL實現數據庫數據存在就修改沒有就刪除

kerberos常用基本命令

Python中append和extend函數操作數組或列表的區別、聯繫和用法

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結