關於歸一化與標準化

原創

2020-06-17 09:43

1、歸一化是什麼

狹義的歸一化（最大最小歸一化）是指對多維數據（特徵） $x=[x_1,...,x_i,...x_d]$ 的每一維進行 $x'_i=\frac{x_i-min(x_i)}{max(x_i)-min(x_i)}$ 操作。其中 $max(x_i),min(x_i)$ 是特徵維相關的，也就是不同的特徵維度有不同的最大值最小值。

2、標準化是什麼

狹義的標準化（zscore標準化）是指對多維數據（特徵） $x=[x_1,...,x_i,...x_d]$ 的每一維進行 $x'_i=\frac{x_i-mean(x_i)}{std(x_i)}$ 操作。其中 $mean(x_i),std(x_i)$ 是特徵維相關的，也就是不同的特徵維度有不同的均值標準差。

3、區別與聯繫

由此可以看出，二者基本相同，實際上是對樣本 $x$ 進行了一種特殊的線性變換 $x' = (x-a)B$ 。有細微差別，差別在於變換系數的選取不同。有時二者統稱爲歸一化技術。經過這種歸一化，原始數據等於進行了平移和放縮操作，樣本距離 $\sqrt{y'-x'}=\sqrt{(y-x)B}=\sqrt{y-x}\sqrt B$ 發生了變化，樣本分佈也發生了變化（分佈類型沒變化，分佈參數發生了變化）。

3、有什麼用

在機器學習中經常遇到數據樣本X的各個維度的數量級相差很大，非常不利於大多數機器學習有效進行優化操作（決策樹可以不做歸一化，因爲在決策樹中各個維度間沒有加權求和操作）。由於大數量級的特徵維度的往往淹沒了小數量級的貢獻，要想平衡他們的貢獻進而得到合理的決策輸出，機器學習算法需要得到數量級非常不同的參數。優化難度大，效率低。因此常常預處理中將數據歸一化。

如果對數值範圍有明確要求，則採用最大最小歸一化。如果對數值範圍沒有要求，則可以採用zscore歸一化技術。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

關於歸一化與標準化

1、歸一化是什麼

2、標準化是什麼

3、區別與聯繫

3、有什麼用

分類迴歸樹(CART)的快速理解

熵，哈夫曼編碼，二進制

關於歸一化與標準化

主成分分析（PCA）之去相關思路

從線性方程組求解到最小二乘問題

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結