機器學習-------特徵工程（三）

原創

2020-06-27 23:33

數據的降維：

簡單來說就是講特徵數量減少。去掉不需要的特徵。

常用方式：

特徵選擇
主成分分析

特徵選擇：

主要方法：Filter(過濾式):VarianceThreshold（方差）

Embedded(嵌入式)：正則化、決策樹（後期介紹）

Wrapper(包裹式)、

神經網絡（後期介紹）

（一）Filter(過濾式):VarianceThreshold

從方差大小來考慮特徵的數值情況

API：sklearn.feature_selection.VarianceThreshold

語法：

•VarianceThreshold(threshold = 0.0)

•threshold的數字是刪除所有低於方差特徵

•Variance.fit_transform(X,y)

•X:numpy array格式的數據[n_samples,n_features]

•返回值：訓練集差異低於threshold的特徵將被刪除。

•默認值是保留所有非零方差特徵，即刪除所有樣本

•中具有相同值的特徵。

from sklearn.feature_selection import VarianceThreshold


def var():
    """特徵選擇-降維 -刪除低方差的特徵"""
    var = VarianceThreshold(threshold=0.0)
    data = var.fit_transform([[0, 2, 0, 3],
                             [0, 1, 4, 3],
                             [0, 1, 1, 3]])
    print(data)


if __name__ == '__main__':
    var()

運行結果：

（二）主成分分析：

目的：是數據維數壓縮，儘可能降低原數據的維數（複雜度），損失少量信息。維度會降低，但是數據也會降低。

API：sklearn. decomposition.PCA

語法：

PCA(n_components=None)

將數據分解爲較低維數空間

PCA.fit_transform(X)

X:numpy array格式的數據[n_samples,n_features]

返回值：轉換後指定維度的array

解釋：

n_components = 小數：一般 0 - 1.要求是 90% - 95%

= 整數：一般不用

代碼：

from sklearn.decomposition import PCA


def pca():
    """主成分分析-特徵降維"""
    pca = PCA(n_components=0.9)
    data = pca.fit_transform([[2, 8, 4, 5],
                             [6, 3, 0, 8],
                             [5, 4, 9, 1]])

    print(data)


if __name__ == '__main__':
    pca()

結果：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

機器學習-------特徵工程（三）

數據的降維：

特徵選擇：

（一）Filter(過濾式):VarianceThreshold

（二）主成分分析：

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

free AI online tools All In One

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

linux安裝cuda和cudnn

Mellanox網卡開啓SR-IOV

模擬手機設備：使用 Playwright 實現移動端自動化測試

HTML 00 Tutorial

全面系統的AI學習路徑，幫助普通人也能玩轉AI

從零開始：使用 Playwright 腳本錄製實現自動化測試

uni-app實現上拉加載

java多線程基本使用【轉】

印象筆記無法連接到服務器/無法同步的解決方法

手把手教你使用saeVPN以及連接到sae的數據庫【轉】

再談JavaScript閉包及應用

機器學習-------算法（五）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結