什麼是數據標準化(Normalization)?
數據的標準化(normalization)是將數據按比例縮放,使之落入一個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除數據的單位限制,將其轉化爲無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權。其中最典型的就是數據的歸一化處理,即將數據統一映射到[0,1]區間上,常見的數據歸一化的方法有:min-max標準化(Min-maxnormalization)也叫離差標準化,是對原始數據的線性變換,使結果落到[0,1]區間,轉換函數如下:其中max爲樣本數據的最大值,min爲樣本數據的最小值。這種方法有一個缺陷就是當有新數據加入時,可能導致max和min的變化,需要重新定義。而並非所有數據標準化的結果都映射到[0,1]區間上,其中最常見的標準化方法就是Z標準化,也是SPSS中最爲常用的標準化方法:z-score 標準化(zero-meannormalization)也叫標準差標準化,經過處理的數據符合標準正態分佈,即均值爲0,標準差爲1,其轉化函數爲:其中μ爲所有樣本數據的均值,σ爲所有樣本數據的標準差。
標準化方法
1.規範化方法
- 也叫離差標準化,是對原始數據的線性變換,使結果映射到[0,1]區間。
2.正規化方法
- 這種方法基於原始數據的均值(mean)和標準差(standard deviation)進行數據的標準化。將A的原始值x使用z-score標準化到x’。
- z-score標準化方法適用於屬性A的最大值和最小值未知的情況,或有超出取值範圍的離羣數據的情況。
- spss默認的標準化方法就是z-score標準化。