[機器學習筆記] 數據標準化方法

原創

梅森上校

2020-04-06 14:27

數據標準化方法

數據標準化

在數據分析之前，我們通常需要先將數據標準化（Normalization），利用標準化後的數據進行數據分析。數據標準化也就是統計數據的指數化。數據標準化處理主要包括數據同趨化處理和無量綱化處理兩個方面。

目前數據標準化方法有多種，歸結起來可以分爲直線型方法(如極值法、標準差法)、折線型方法(如三折線法)、曲線型方法(如半正態性分佈)。不同的標準化方法，對系統的評價結果會產生不同的影響，然而不幸的是，在數據標準化方法的選擇上，還沒有通用的法則可以遵循。

爲什麼要做數據標準化？

所謂多指標綜合評價方法，就是把描述評價對象不同方面的多個指標的信息綜合起來，並得到一個綜合指標，由此對評價對象做一個整體上的評判，並進行橫向或縱向比較。

而在多指標評價體系中，由於各評價指標的性質不同，通常具有不同的量綱和數量級。當各指標間的水平相差很大時，如果直接用原始指標值進行分析，就會突出數值較高的指標在綜合分析中的作用，相對削弱數值水平較低指標的作用。因此，爲了保證結果的可靠性，需要對原始指標數據進行標準化處理。

數據標準化方法

數據同趨化處理主要解決不同性質數據問題，對不同性質指標直接加總不能正確反映不同作用力的綜合結果，須先考慮改變逆指標數據性質，使所有指標對測評方案的作用力同趨化，再加總才能得出正確結果。

數據無量綱化處理主要解決數據的可比性。

數據標準化的方法有很多種，常用的有“最小—最大標準化”（Min-max Normalization）、“Z-score標準化”和“按小數定標標準化”等。經過上述標準化處理，原始數據均轉換爲無量綱化指標測評值，即各指標值都處於同一個數量級別上，可以進行綜合測評分析。

1、min-max標準化(Min-max Normalization)

也叫離差標準化，是對原始數據的線性變換，使結果落到[0,1]區間，轉換函數如下:

離差標準化

其中max爲樣本數據的最大值，min爲樣本數據的最小值。
這種方法有一個缺陷就是當有新數據加入時，可能導致max和min的變化，需要重新定義。

2、log函數轉換

通過以10爲底的log函數轉換的方法同樣可以實現歸一下，具體方法看了下網上很多介紹都是x=log10(x)，其實是有問題的，這個結果並非一定落到[0,1]區間上，應該還要除以log10(max)*，max爲樣本數據最大值，並且所有的數據都要大於等於1。

3、atan函數轉換

用反正切函數也可以實現數據的歸一化，使用這個方法需要注意的是如果想映射的區間爲[0,1]，則數據都應該大於等於0，小於0的數據將被映射到[-1,0]區間上。

4、z-score 標準化(zero-meannormalization)

而並非所有數據標準化的結果都映射到[0,1]區間上，其中最常見的標準化方法就是Z標準化；也是SPSS中最爲常用的標準化方法，也叫標準差標準化，

z-score 標準化

這種方法基於原始數據的均值（mean）和標準差（standard deviation）進行數據的標準化。將A的原始值x使用z-score標準化到x’。
z-score標準化方法適用於屬性A的最大值和最小值未知的情況，或有超出取值範圍的離羣數據的情況。
spss默認的標準化方法就是z-score標準化。
用Excel進行z-score標準化的方法：在Excel中沒有現成的函數，需要自己分步計算，其實標準化的公式很簡單。

步驟如下：
1.求出各變量（指標）的算術平均值（數學期望）xi和標準差si ；
2.進行標準化處理：
zij=（xij－xi）/si
其中：zij爲標準化後的變量值；xij爲實際變量值。
3.將逆指標前的正負號對調。
標準化後的變量值圍繞0上下波動，大於0說明高於平均水平，小於0說明低於平均水平。

5、歸一化方法

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

[機器學習筆記] 數據標準化方法

數據標準化方法

數據標準化

爲什麼要做數據標準化？

數據標準化方法

1、min-max標準化(Min-max Normalization)

2、log函數轉換

3、atan函數轉換

4、z-score 標準化(zero-meannormalization)

5、歸一化方法

爲什麼要⽤ Foundry

【筆記】動手學深度學習-預備知識

py發送email

MySQL 分庫分表方案，總結太全了。。

Qt/C++音視頻開發71-指定mjpeg/h264格式採集本地攝像頭/存儲文件到mp4/設備推流/採集推流

WPF開源輕便、快速的桌面啓動器

公司來了個新同事，把 DDD 運用得爐火純青！

[機器學習筆記] 機器學習常見算法總結（更新中）

[統計學筆記] （四）數據分佈的數字特徵

[機器學習筆記] （轉載學習）完整機器學習項目的工作流程

[機器學習筆記] 常用的分類與預測算法

[機器學習筆記] 用Python分析 TED演講數據（更新中）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結