歸一化和標準化

原創

二六

2019-08-28 20:21

歸一化和標準化

文章目錄

歸一化和標準化

引言

我查閱了網上的一些資料發現他們對這個標準化和歸一化的區分並不是特別一致，有的是將歸一化方法歸結到標準化方法裏，有的是將歸一化方法和標準化方法並行描述的。知乎上有個回答者給出維基的解釋是這樣的：

特徵縮放（Featrue Scaling）分爲：
截圖鏈接https://www.zhihu.com/question/20467170/answer/633379185
總體而言，對於常見的歸一化方法是指下述公式（1），對於常見的標準化方法是指下述公式（2）。

歸一化公式

（1）
$\mathbf{x^*}=\frac{x-min}{max-min}$

標準化公式

（2）
$\mathbf{x^*}=\frac{x-\mu}{\sigma}$

我這裏即按上述公式（1）和（2）進行區分歸一化和標準化。

什麼是歸一化和標準化？

歸一化
$\mathbf{x^*}=\frac{x-min}{max-min}$
通過對原始數據進行線性變換把數據映射到[0,1]之間。

其中max是樣本數據最大值，min是樣本數據最小值。

該方法也叫min-max法，離差標準化法等。

標準化
$\mathbf{x^*}=\frac{x-\mu}{\sigma}$
通過處理將數據的均值變爲0，標準差變爲1。

其中 $\mu$ 是樣本均值， $\sigma$ 是樣本標準差。

適用於屬性A的最大值和最小值未知的情況，或有超出取值範圍的離羣數據的情況。

該方法也叫Z-Score標準化方法。

證明經該標準化後樣本數據的均值變爲0，標準差變爲1。
證：原樣本數據的均值爲 $\mu$ ，標準差爲 $\sigma$

所以有：

$ E(X)=\mu$

$D(X)=\sigma$
則有
$\mathbf{E(X^*)}=\frac{1}{\sigma}E(x-\mu)\\ =\frac{1}{\sigma}(E(x)-\mu)\\ =\frac{1}{\sigma}(\mu-\mu) =0$

$\mathbf{D(X^*)}=D(\frac{x-\mu}{\sigma})\\ =\frac{1}{\sigma}D(x-\mu)\\ =\frac{\sigma}{\sigma}\\ =1$

爲什麼要引入歸一化和標準化？

例如：對於某一對象A，它有三種特徵，X1=1000,X2=1,X3=0.5,在衡量對象A時，顯然特徵X1對A的影響很可能會掩蓋掉特徵X3對A的影響，這就會造成精度的損失，且X1,X2,X3是不同量綱的，那麼就更不能比較了，而且也不能忽略其他特徵的影響。這時候就需要引入標準化/歸一化。數據的標準化/歸一化就是將原始各指標數據按比例縮放，去除數據單位的限制，轉化爲無量綱的數值，使得不同特徵對參數的影響程度是一樣的，便於不同單位和量級的指標能夠比較和加權。

簡而言之：對數據標準化的目的是消除特徵之間的差異性，便於特徵專心學習權重。

標準化/歸一化的作用：

1.消除量綱，使不同變量具有可比性

2.提高收斂速度

3.提高精度