sklearn數據預處理 - 歸一化

原創

2020-07-04 10:00

MinMaxScalar

將數據歸一化到[0,1]，計算公式如下：
$X_{scaled} = \frac{X - X.min(axis=0))}{X.max(axis=0) - X.min(axis=0)}*(max - min)+min$
其中min,max = feature_range，爲歸一化後數據的區間，默認是[0,1]。
MinMaxScalar歸一化得到的數據會完全落入[0,1]區間內（z-score沒有類似區間），而且能使數據歸一化落到一定的區間內，同時保留原始數據的結構。

MaxAbsScalar

將數據歸一化到[-1,1]，計算公式如下：
$X_{sacled} = \frac{X}{|X|.max(axis=0)}$
同MinMaxScalar相同，MaxAbsScalar得到的數據會完全落入[-1, 1]區間內（z-score沒有類似區間），而且能使數據歸一化落到一定的區間內，同時保留原始數據的結構。

MinMaxScalar和MaxAbsScalar的優點：

對於方差非常小的屬性可以增強其穩定性；
維持稀疏矩陣中爲0的條目

StandardScaler

將數據縮放到均值爲0，方差爲1，計算公式如下：
$X_{sacled} = \frac{X - X.mean(axis=0)}{X.std(axis=0)}$
StandardScaler適合大多數的數據類型的數據，得到的數據是以0爲均值，1爲方差的正態分佈，但這種方法改變了原始數據的結構，因此不適宜用於對稀疏矩陣做數據預處理。
StandardScaler也能夠接受 scipy.sparse 作爲輸入，只要參數 with_mean=False 被準確傳入它的構造器。否則會出現 ValueError 的錯誤，因爲默認的中心化會破壞稀疏性，並且經常會因爲分配過多的內存而使執行崩潰。

RobustScaler

計算公式如下：
$X_{scaled} = \frac{X - X.median(axis=0)}{X.quantile(max) - X.quantile(min)}$
如果數據包含許多異常值，可以使用RobustScaler或robust_scaler。
RobustScaler將中位數當做數據的中心，移除中位數，然後根據分位數範圍（默認爲IQR，0.75分位數和0.25分位數間距）

QuantileTransformer

此變換是非線性的。通過累積密度函數投影原始值。可以通過設置參數將數據轉化爲均勻分佈或是高斯分佈。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

sklearn數據預處理 - 歸一化

MinMaxScalar

MaxAbsScalar

StandardScaler

RobustScaler

QuantileTransformer

如何基於surging跨網關跨語言進行緩存降級

2024合集

程序員天天 CURD，怎麼才能成長，職業發展的思考(2)

移位操作搞定兩數之商

教你用Perl實現Smgp協議

如何通過前端表格控件在10分鐘內完成一張分組報表？

win11關閉自動檢測病毒刪文件

通用代碼生成器簡介

lightdb 單機模式下數據庫平移

千兆寬帶實際網速能到達多少？

pyspark入門系列 - 02 pyspark.sql入口 SparkSession簡介與實踐

觀察期與表現期

信用評分模型建模流程

一文搞懂基於用戶的協同過濾推薦算法

pyspark入門系列 - 03 pyspark.sql.DataFrame函數彙總與實踐

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結