常用的數據標準化方法

數據的標準化(normalization)是將數據按照一定規則縮放,使之落入一個小的特定區間。這樣去除數據的單位限制,將其轉化爲無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權。其中最典型的就是0-1標準化和Z標準化,當然,也有一些其他的標準化方法,用在不同場景,這裏主要介紹幾種常用的方法。

1、Min-Max標準化(Min-Max normalization)

也稱離差標準化,是對原始數據的線性變換,使結果落到[0,1]區間,轉換函數如下:

yi=ximin{xj}max{xj}min{xj} ,(1 i n,1 j n)

其中max{xj} 爲樣本數據的最大值,min{xj} 爲樣本數據的最小值。這種方法有一個缺陷就是當有新數據加入時,可能導致max和min的變化,需要重新定義。

2、Z-score 標準化(zero-mean normalization)

也叫標準差標準化,經過處理的數據符合標準正態分佈,即均值爲0,標準差爲1,其轉化函數爲:

yi=xixs ,(1 i n)

其中x 爲所有樣本數據的均值,s 爲所有樣本數據的標準差。

經過 Z-score 標準化後,各變量將有約一半觀察值的數值小於0,另一半觀察值的數值大於0,變量的平均數爲0,標準差爲1。經標準化的數據都是沒有單位的純數量。它是當前用得最多的數據標準化方法。如果特徵非常稀疏,並且有大量的0(現實應用中很多特徵都具有這個特點),Z-score 標準化的過程幾乎就是一個除0的過程,結果不可預料。

3、歸一標準化

yi=xin1x2i ,(1 i n)

則新序列 y1,y2,,yn[0,1] 且無量綱並且顯然有niyi=1 .

歸一化方法在確定權重時經常用到。針對實際情況,也可能有其他一些量化方法,或者要綜合使用多種方法,總之最後的結果都是無量綱化。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章