1、歸一化是什麼
狹義的歸一化(最大最小歸一化)是指對多維數據(特徵)的每一維進行操作。其中是特徵維相關的,也就是不同的特徵維度有不同的最大值最小值。
2、標準化是什麼
狹義的標準化(zscore標準化)是指對多維數據(特徵)的每一維進行操作。其中是特徵維相關的,也就是不同的特徵維度有不同的均值標準差。
3、區別與聯繫
由此可以看出,二者基本相同,實際上是對樣本進行了一種特殊的線性變換。有細微差別,差別在於變換系數的選取不同。有時二者統稱爲歸一化技術。經過這種歸一化,原始數據等於進行了平移和放縮操作,樣本距離發生了變化,樣本分佈也發生了變化(分佈類型沒變化,分佈參數發生了變化)。
3、有什麼用
在機器學習中經常遇到數據樣本X的各個維度的數量級相差很大,非常不利於大多數機器學習有效進行優化操作(決策樹可以不做歸一化,因爲在決策樹中各個維度間沒有加權求和操作)。由於大數量級的特徵維度的往往淹沒了小數量級的貢獻,要想平衡他們的貢獻進而得到合理的決策輸出,機器學習算法需要得到數量級非常不同的參數。優化難度大,效率低。因此常常預處理中將數據歸一化。
如果對數值範圍有明確要求,則採用最大最小歸一化。如果對數值範圍沒有要求,則可以採用zscore歸一化技術。