關於歸一化與標準化

1、歸一化是什麼

狹義的歸一化(最大最小歸一化)是指對多維數據(特徵)x=[x1,...,xi,...xd]x=[x_1,...,x_i,...x_d]的每一維進行xi=ximin(xi)max(xi)min(xi)x'_i=\frac{x_i-min(x_i)}{max(x_i)-min(x_i)}操作。其中max(xi),min(xi)max(x_i),min(x_i)是特徵維相關的,也就是不同的特徵維度有不同的最大值最小值。

2、標準化是什麼

狹義的標準化(zscore標準化)是指對多維數據(特徵)x=[x1,...,xi,...xd]x=[x_1,...,x_i,...x_d]的每一維進行xi=ximean(xi)std(xi)x'_i=\frac{x_i-mean(x_i)}{std(x_i)}操作。其中mean(xi),std(xi)mean(x_i),std(x_i)是特徵維相關的,也就是不同的特徵維度有不同的均值標準差。

3、區別與聯繫

由此可以看出,二者基本相同,實際上是對樣本xx進行了一種特殊的線性變換x=(xa)Bx' = (x-a)B。有細微差別,差別在於變換系數的選取不同。有時二者統稱爲歸一化技術。經過這種歸一化,原始數據等於進行了平移和放縮操作,樣本距離yx=(yx)B=yxB\sqrt{y'-x'}=\sqrt{(y-x)B}=\sqrt{y-x}\sqrt B發生了變化,樣本分佈也發生了變化(分佈類型沒變化,分佈參數發生了變化)。

3、有什麼用

在機器學習中經常遇到數據樣本X的各個維度的數量級相差很大,非常不利於大多數機器學習有效進行優化操作(決策樹可以不做歸一化,因爲在決策樹中各個維度間沒有加權求和操作)。由於大數量級的特徵維度的往往淹沒了小數量級的貢獻,要想平衡他們的貢獻進而得到合理的決策輸出,機器學習算法需要得到數量級非常不同的參數。優化難度大,效率低。因此常常預處理中將數據歸一化。

如果對數值範圍有明確要求,則採用最大最小歸一化。如果對數值範圍沒有要求,則可以採用zscore歸一化技術。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章