常用的數據標準化方法

原創

2018-08-22 08:02

數據的標準化（normalization）是將數據按照一定規則縮放，使之落入一個小的特定區間。這樣去除數據的單位限制，將其轉化爲無量綱的純數值，便於不同單位或量級的指標能夠進行比較和加權。其中最典型的就是0-1標準化和Z標準化，當然，也有一些其他的標準化方法，用在不同場景，這裏主要介紹幾種常用的方法。

1、Min-Max標準化(Min-Max normalization)

也稱離差標準化，是對原始數據的線性變換，使結果落到[0,1]區間，轉換函數如下：

yi=xi−min{xj}max{xj}−min{xj} ，(1≤ i≤ n，1≤ j≤ n)

其中max{xj} 爲樣本數據的最大值，min{xj} 爲樣本數據的最小值。這種方法有一個缺陷就是當有新數據加入時，可能導致max和min的變化，需要重新定義。

2、Z-score 標準化(zero-mean normalization)

也叫標準差標準化，經過處理的數據符合標準正態分佈，即均值爲0，標準差爲1，其轉化函數爲：

yi=xi−x⎯s ，(1≤ i≤ n)

其中x⎯⎯ 爲所有樣本數據的均值，s 爲所有樣本數據的標準差。

經過 Z-score 標準化後，各變量將有約一半觀察值的數值小於0，另一半觀察值的數值大於0，變量的平均數爲0，標準差爲1。經標準化的數據都是沒有單位的純數量。它是當前用得最多的數據標準化方法。如果特徵非常稀疏，並且有大量的0（現實應用中很多特徵都具有這個特點），Z-score 標準化的過程幾乎就是一個除0的過程，結果不可預料。

3、歸一標準化

yi=xi∑n1x2i ，(1≤ i≤ n)

則新序列 y1,y2,…,yn∈[0,1] 且無量綱並且顯然有∑niyi=1 .

歸一化方法在確定權重時經常用到。針對實際情況，也可能有其他一些量化方法，或者要綜合使用多種方法，總之最後的結果都是無量綱化。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

常用的數據標準化方法

MySQL 核心模塊揭祕 | 18 期 | 鎖在內存里長什麼樣*

使用perf工具生成火焰圖

大齡程序員思考

響應式界面控件DevExtreme * 更強的數據分析和可視化功能

HttpSecurity 是如何組裝過濾器鏈的

數說海南——近6年海南各市縣人口簡單看

長序列中Transformers的高級注意力機制總結

WebStorm 創建 Vue 項目

TensorFlow 指定 GPU 訓練模型

SQL 知識點回顧總結（二）

Linux 下 top 和 free 命令總結

Caffe 圖片數據轉化爲 lmdb 格式以及均值文件的計算

SQL 知識點回顧總結（一）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結