真別再糾結標準化還是歸一化了

很多博客把他們搞混。畢竟字典也是把他們放一起了。
在這裏插入圖片描述

既然搞混,那混在一起看好了

在我看來他們其實都是對feature value做了變化就是了。糾結那麼多概念的問題也沒什麼意義。

有些是不變化原數據分佈的

其實均值方差變了那分佈肯定就變了。我這裏“不改變原數據分佈”的意思是概率密度函數的形狀不變。

  1. xi=xiμσx_i=\frac {x_i-\mu} {\sigma}
    這個改得挺好,把原分佈映射到均值爲0方差爲1的分佈上。額外提一句,即便是均值0標準差1也不非得是標準正態分佈,有很多博客亂寫

下面的方法應用後原數據分佈的概率密度函數形狀仍然不變,只不過不一定是標準的0均值1標準差的分佈而已。

  1. xi=xixminxmaxxminx_i=\frac{x_i-x_{min}}{x_{max}-x_{min}}

  2. xi=xiμxmaxxminx_i=\frac{x_i-\mu}{x_{max}-x_{min}}

有些會改變分佈:

  1. xi=log(xi)x_i=log(x_i)
  2. xi=atan(xi)2πx_i=\frac{atan(x_i)*2} \pi

還有很多變換方法,依據情況選擇變換方法就是了。
另外並不是所有機器學習算法都需要歸一或者標準化。看其原理就行了,不必多說。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章