其中最典型的就是數據的歸一化處理,即將數據統一映射到[0,1]區間上,常見的數據歸一化的方法有:
min-max標準化(Min-max normalization)
也叫離差標準化,是對原始數據的線性變換,使結果落到[0,1]區間,轉換函數如下:
其中max爲樣本數據的最大值,min爲樣本數據的最小值。這種方法有一個缺陷就是當有新數據加入時,可能導致max和min的變化,需要重新定義。
log函數轉換
通過以10爲底的log函數轉換的方法同樣可以實現歸一下,具體方法如下:
看了下網上很多介紹都是x*=log10(x),其實是有問題的,這個結果並非一定落到[0,1]區間上,應該還要除以log10(max),max爲樣本數據最大值,並且所有的數據都要大於等於1。
atan函數轉換
用反正切函數也可以實現數據的歸一化:
使用這個方法需要注意的是如果想映射的區間爲[0,1],則數據都應該大於等於0,小於0的數據將被映射到[-1,0]區間上。
而並非所有數據標準化的結果都映射到[0,1]區間上,其中最常見的標準化方法就是Z標準化,也是SPSS中最爲常用的標準化方法:
z-score 標準化(zero-mean normalization)
也叫標準差標準化,經過處理的數據符合標準正態分佈,即均值爲0,標準差爲1,其轉化函數爲:
其中μ爲所有樣本數據的均值,σ爲所有樣本數據的標準差。