數據的標準化

原創

2020-02-20 19:52

數據的標準化（normalization）是將數據按比例縮放，使之落入一個小的特定區間。在某些比較和評價的指標處理中經常會用到，去除數據的單位限制，將其轉化爲無量綱的純數值，便於不同單位或量級的指標能夠進行比較和加權。

　　其中最典型的就是數據的歸一化處理，即將數據統一映射到[0,1]區間上，常見的數據歸一化的方法有：

　　也叫離差標準化，是對原始數據的線性變換，使結果落到[0,1]區間，轉換函數如下：

　　其中max爲樣本數據的最大值，min爲樣本數據的最小值。這種方法有一個缺陷就是當有新數據加入時，可能導致max和min的變化，需要重新定義。

　　通過以10爲底的log函數轉換的方法同樣可以實現歸一下，具體方法如下：

　　看了下網上很多介紹都是x^*=log₁₀(x)，其實是有問題的，這個結果並非一定落到[0,1]區間上，應該還要除以log₁₀(max)，max爲樣本數據最大值，並且所有的數據都要大於等於1。

　　用反正切函數也可以實現數據的歸一化：

　　使用這個方法需要注意的是如果想映射的區間爲[0,1]，則數據都應該大於等於0，小於0的數據將被映射到[-1,0]區間上。

　　而並非所有數據標準化的結果都映射到[0,1]區間上，其中最常見的標準化方法就是Z標準化，也是SPSS中最爲常用的標準化方法：

　　也叫標準差標準化，經過處理的數據符合標準正態分佈，即均值爲0，標準差爲1，其轉化函數爲：

　　其中μ爲所有樣本數據的均值，σ爲所有樣本數據的標準差。

發佈了19 篇原創文章 · 獲贊 5 · 訪問量 17萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.