變量處理中的標準化方法

原創

aksharks

2023-03-01 13:35

關於標準化的幾點理解：

標準化(Standard)，是將數據以一個相同的尺度進行縮放
歸一化(Normalization)是以縮放到[0,1]區間
sklearn中的Scaler，可以將數據縮放到給定的區間內
歸一化可以理解成一種特殊的標準化

使用歸一化消除不同量綱之間的差異，一般情況下使用線性模型務必要對連續特徵做歸一化。

graph LR Standard --> Normalization Standard --> MaxMinScaler Normalization --> Normalizer Normalization --> StandardScaler

MaxMinScaler

注意，以下公式用於只有一個隨機變量的情況。

1. 歸一化（縮放到[0,1]區間）
\( X_{std} = \frac{X-X_{min}}{X_{max}-X_{min}} \)

2. 縮放到給定的[min, max]區間
\( X_{scaled} =X_{std} * (max - min) + min \)

說明：

加上min 可以保證 \(X_{scaled}\) 最小值爲 min
\(X_{std}\)最大值爲1，保證了 \(X_{scaled}\)的最大值爲max
需要縮放到數據在指定範圍時候可以選擇此方法，能夠較好保留原始特徵的信息。

StandardScaler

標準化(Standardization) ，也就是計算Z-Score，可使得數據的均值爲0，方差爲1，計算公式：

\( X_{z-score} = \frac{X-\mu}{\sigma} \)

推導均值爲0：

\[\bar x_{z-score} = \frac{1}{n} * (\frac{x_1-\mu}{\sigma} + \frac{x_2-\mu}{\sigma} + ... + \frac{x_n-\mu}{\sigma}) =\frac{x_1+x_2+...+x_n - n*\mu}{\sigma} \]

(equation 1)

其中：

\[\mu = \frac{x_1+x_2+...+x_n}{n} => x_1+x_2+...+x_n = n*\mu \]

所以equation 1 中的分子爲0，可以得到：
\(\bar x_{z-score} = 0\)

推導方差爲1：

\[\sigma{z-score} = \frac{1}{n-1} * (\frac{x_2-\mu}{\sigma} - \frac{x_1-\mu}{\sigma} + ... + \frac{x_n-\mu}{\sigma} - \frac{x_{n-1}-\mu}{\sigma}) = \frac{1}{n-1} * (\frac{x_2-x_1}{\sigma} + \frac{x_3-x_2}{\sigma} + ...+ \frac{x_{n}-x_{n-1}}{\sigma}) = \frac{1}{\sigma} * (\frac{x_2-x_1}{n-1} + \frac{x_3-x_2}{n-1} + ...+ \frac{x_{n}-x_{n-1}}{n-1}) \]

(equation 2)

其中：
\( \sigma =\frac{x_2-x_1 + x_3-x_2 + ... + x_{n}-x_{n-1}}{n-1} \)

可以得到:
\(\sigma{z-score} = 1\)

需要控制數據的均值和方差時候可以選擇此方法。

Normalizer

正則化,利用範數進行歸一化，計算方法：

\( Norm(X_i) = \frac{x_i}{||X||_p} ;where X=\{x_1, x_2, ..., x_i\} \)

其中\(||X||_p\)表示X的p範數，標準化的過程就是每一個樣本除以改變量的p範數，以2範數爲例計算方法：

\( ||X||_2 = \sqrt{x_1^2 + x_2^2 + ... + x_n^2} \)

X變量的p範數計算方法：

\( ||X||_p = (\sum {x_1^p + x_2^p + ... +x_n^p})^\frac{1}{p} \)

\(L_2\)範數可以將數據縮放到[0,1]區間：
\( Norm_2(x_i) = \frac{x_i^2}{ x_1^2 + x_2^2 + x_i^2 + ... + x_n^2 } \)

因爲\(x_1^2 + x_2^2 + x_i^2 + ... + x_n^2x>=x_i^2>0\) 所以\(Norm_2(x_i)\)也是[0,1]區間。

稱呼

上面這幾種方式都是標準化方法，也都能實現歸一化，但是實際上對它們的翻譯是：

MaxMinScaler - 歸一化(明顯可以把變量縮放到給0,1區間)
StandardScaler - 標準化(因爲將數據縮放到一個正太分佈了？？)
Normalizer - 正則化(使用了範數)

知道它們具體是怎麼就好了。。。。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

變量處理中的標準化方法

MaxMinScaler

StandardScaler

Normalizer

稱呼

2024年DataOps趨勢預測：AI不會取代數據工程師

雲原生週刊：K8s 中的服務和網絡｜ 2024.4.29

[轉帖]cpupower

今天，昨天，近七天，近30天，近90天，js封裝

華爲云云原生FinOps解決方案，釋放雲原生最大價值

numpy實現PSI指標計算

sklearn logloss scorer (neg_log_loss) 計算爲負數的問題

變量處理中的標準化方法

numpy中的Axis軸

0-1揹包問題(Dynamic Programming)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結