數據正則化 (data normalization) 的原理及實現 (Python sklearn)

原創

2020-03-10 07:33

原理

數據正規化（data normalization）是將數據的每個樣本（向量）變換爲單位範數的向量，各樣本之間是相互獨立的．其實際上，是對向量中的每個分量值除以正規化因子．常用的正規化因子有 L1, L2 和 Max．假設，對長度爲 n 的向量，其正規化因子 z 的計算公式，如下所示：

注意：Max 與無窮範數不同，無窮範數是需要先對向量的所有分量取絕對值，然後取其中的最大值；而 Max 是向量中的最大分量值，不需要取絕對值的操作．

補充：一階範數也稱爲曼哈頓距離（Manhanttan distance）或街區距離；二階範數也稱爲歐式距離（Euclidean distance）．

舉例：對向量x=(x1,x2,x3,x4,x5) 分別進行正則化得到：

L1正則化：對每個元素除以L1正則因子： $x_{1}=\frac{x_{1}}{\sum \left | x_{i} \right |}$

L2正則化：對每個元素除以L2正則因子： $x_{1}=\frac{x_{1}}{\sqrt{\sum x_{i}^2} }$

Max正則化：對每個元素除以Max正則因子： $x_{1}=\frac{x_{1}}{max(x_{i})}$

正則化在Ridge迴歸中的應用，注意最後是二階範數的平方

$J \ left（w \ right）= \ frac {1} {m} \ sum \ limits_ {i = 1} ^ m {{{\ left（{{y_i} - {w ^ T} {x_i}} \ right ）} ^ 2}} + \ lambda \ left \ | w \ right \ | _2 ^ 2 \ left（{\ lambda> 0} \ right）$

實現

在 Python 庫 sklearn 中，有兩種實現方式進行數據的正規化，這兩種實現都可通過參數 norm 選擇正規化因子，可選項有 'l1', 'l2' 和 'max'．

方法一：採用 sklearn.preprocessing.Normalizer 類，其示例代碼如下：


# Use sklearn.preprocessing.Normalizer class to normalize data.
from __future__ import print_function
import numpy as np
from sklearn.preprocessing import Normalizer


x = np.array([1, 2, 3, 4], dtype='float32').reshape(1,-1)

print("Before normalization: ", x)

options = ['l1', 'l2', 'max']
for opt in options:
    norm_x = Normalizer(norm=opt).fit_transform(x)
    print("After %s normalization: " % opt.capitalize(), norm_x)

方法二：採用 sklearn.preprocessing.normalize 函數，其示例代碼如下：

# Use sklearn.preprocessing.normalize function to normalize data.

from __future__ import print_function
import numpy as np
from sklearn.preprocessing import normalize


x = np.array([1, 2, 3, 4], dtype='float32').reshape(1,-1)

print("Before normalization: ", x)

options = ['l1', 'l2', 'max']
for opt in options:
    norm_x = normalize(x, norm=opt)
    print("After %s normalization: " % opt.capitalize(), norm_x)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

數據正則化 (data normalization) 的原理及實現 (Python sklearn)

原理

實現

MySQL 核心模塊揭祕 | 18 期 | 鎖在內存里長什麼樣*

使用perf工具生成火焰圖

HttpSecurity 是如何組裝過濾器鏈的

數說海南——近6年海南各市縣人口簡單看

長序列中Transformers的高級注意力機制總結

WebStorm 創建 Vue 項目

大齡程序員思考

響應式界面控件DevExtreme * 更強的數據分析和可視化功能

處理正負樣本不均衡問題

矩陣分解之: 特徵值分解(EVD)、奇異值分解(SVD)、SVD++

排序模型對比

DeepFM對FM、FNN、PNN、wide&deep模型

聚類算法 - K-Means、二分K-Means、K-Means 、K-Means||、Canopy、Mini Batch K-Means算法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結