sklearn之降維算法PCA

原創

liuwei423210896

2020-06-23 05:23

import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.decomposition import PCA

iris = load_iris()
y = iris.target
X = iris.data
X.shape

import pandas as pd

pd.DataFrame(X)

	0	1	2	3
0	5.1	3.5	1.4	0.2
1	4.9	3.0	1.4	0.2
2	4.7	3.2	1.3	0.2
3	4.6	3.1	1.5	0.2
4	5.0	3.6	1.4	0.2
5	5.4	3.9	1.7	0.4
6	4.6	3.4	1.4	0.3
7	5.0	3.4	1.5	0.2
8	4.4	2.9	1.4	0.2
9	4.9	3.1	1.5	0.1
10	5.4	3.7	1.5	0.2

pd.DataFrame(y)

pca = PCA(n_components=2)
pca = pca.fit(X)
X_dr = pca.transform(X)

# 查看降維後每個特徵向量上的所帶信息大小【可解釋爲方差大小】
pca.explained_variance_

# 查看降維後每個特徵向量上的信息量所佔原始數據總信息量的百分比
pca.explained_variance_ratio_

X_dr

X_dr[y == 1,0]

colors = ['red','black','orange']

iris.target_names

plt.figure()
for i in [0,1,2]:
plt.scatter(X_dr[y==i,0],X_dr[y==i,1],alpha=.7,c=colors[i],label=iris.target_names[i])
plt.legend()
plt.title('PCA of IRIS dataset')
plt.show()

import numpy as np
pca_line = PCA().fit(X)
plt.plot([1,2,3,4],np.cumsum(pca_line.explained_variance_ratio_))
plt.xticks([1,2,3,4])
plt.xlabel("number of components after dimension reduction")
plt.ylabel("cumulative explained variance")
plt.show()

對於PCA降維方式，主要是根據前後的方差的大小來確定信息量的損失情況！！！！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

ImportError: cannot import name ‘__check_build‘ from partially initialized module ‘sklearn‘

同事的本子上用pip install scikit-learn 安裝時報錯說: sklearn\\datasets\\tests\\data\\openml\\1119\\api-v1-json-data-list-data_name

2020-07-04 10:50:57

KNN算法第二章 Pandas & sklearn 機器學習實戰 Machine Learning in action

本專欄計劃藉助Pandas與sklearn重新實現書中的實戰案例。 k-近鄰算法1. KNN算法流程2. KNN改進約會網站的配對效果2.1 數據準備：從文本中解析數據2.2 數據可視化：散點圖2.3 數據處理：歸一化數值2.4

2020-07-08 11:09:44

社區發現之譜聚類算法的實現

#譜聚類算法實現 #1、計算距離矩陣(歐氏距離，作爲相似度矩陣) #2、利用KNN計算鄰接矩陣A #3、由鄰接矩陣計算都矩陣D和拉普拉斯矩陣L #4、標準化拉普拉斯矩陣 #5、對拉普拉斯矩陣進行特徵值分解得到特徵向量 #6、對特徵向量

2020-07-07 23:51:53

scikit-learn學習

scikit-learn是python中常見的機器學習庫，簡寫爲sklearn sklearn包含很多機器學習方式 Classification 分類 Regression 迴歸 Clustering 非監督分類 Dimensionali

2020-07-07 07:29:13

更新索引和離散特徵值的處理 pd.get_dummies(X)

我們這裏爲了演示, 直接刪除含有空值的行, 這是會會出現索引不連續的情況, 如圖, 索引少了888, 這是我們需要更新索引這時我們看到所有數據從891條變成了712條, 但是原始的所以竟然變成了新的特徵列, 這不是我們想要的,

透明的红萝卜221

2020-07-07 06:38:55

數據挖掘——sklearn瞭解

數據挖掘——sklearn瞭解sklearn庫的大概sklearn官方文檔的內容sklearn官方文檔結構使用sklearn進行簡單的數據挖掘數據挖掘的步驟參考文獻 sklearn庫的大概網上有很多關於sklearn的學習教程，

2020-07-05 23:54:46

kaggle波士頓房價預測，score=0.12986

作爲一個機器學習小白，之前拿titanic數據集練過手，遇到波士頓房價數據集（81個特徵）剛開始是有點懵，主要就懵在不知道如何下手處理數據，參考一些資料後，勉強跑通了流程，在此記錄一下。大神請自動繞過。 1、加載數據集數據集可以到kag

2020-07-05 22:50:38

機器學習-簡單線性迴歸分析（Python）

前言機器學習常用來解決相關分析和迴歸分析的問題，有時候大家會混淆兩者之間的差異，這裏通過對比分析來說明兩者的區別和聯繫，最後會以調用sklearn包中LinearRegression方法進行簡單線性迴歸分析爲例，說明如何使用

2020-07-05 17:43:16

Python-sklearn包中StratifiedKFold和KFold生成交叉驗證數據集的區別

一、StratifiedKFold及KFold主要區別及函數參數 KFold交叉採樣：將訓練/測試數據集劃分n_splits個互斥子集，每次只用其中一個子集當做測試集，剩下的（n_splits-1）作爲訓練集，進行n_splits

2020-07-05 17:43:06

sklearn 算法調參決策樹調參

scikit-learn決策樹算法類庫介紹 scikit-learn決策樹算法類庫內部實現是使用了調優過的CART樹算法，既可以做分類，又可以做迴歸。分類決策樹的類對應的是DecisionTreeClassifier，而回歸決

2020-07-05 17:30:37

Sklearn-GBDT(GradientBoostingDecisonTree)梯度提升樹

GBDT類庫概述GBDT有很多簡稱，有GBT（Gradient Boosting Tree）, GTB（Gradient Tree Boosting）， GBRT（Gradient Boosting Regression Tree）

2020-07-05 12:30:42

Sklearn簡單學習筆記

下面是學習了莫煩大佬 sklearn 教程的筆記，是供我自己查閱的，不是很詳細，介意的勿看~ 莫煩大佬的教程鏈接在最後一點學習資料裏面。這是目錄一、下載與安裝二、選擇合適的機器學習方法三、通用的學習模式四、sklearn 的

2020-07-04 07:36:10

sklearn LinearReggression

sklearn linear_model:線性模塊一、LinearReggression 1、調用方法 class sklearn.linear_model.LinearRegression(fit_intercept=True

2020-07-04 05:02:55

【解決python，xgboost問題】XGBoostError: sklearn needs to be installed in order to use this module

問題描述：衆所周知，要使用python的庫xgboost必須要提前安裝好sklearn。但是，當我們xgboost和sklearn都安裝了，本人在執行以下代碼時： model_regr = xgboost.XGBRegress

2020-07-02 05:34:02

【關於歸一化與反歸一化數據統一的問題】：訓練集與測試集必須使用同一參數的歸一化與反歸一化

問題描述：在建立迴歸模型時，往往需要對數據進行歸一化和反歸一化。然而，一定要注意訓練集與測試集使用的歸一化參數必須統一！！常用的歸一化方法有很多，這裏以sklearn的MinMaxScale()爲例，下面講述了歸一化和反歸一

2020-07-02 05:34:02

24小時熱門文章

最新文章

最新評論文章