數據如何歸一化 類型

爲什麼要歸一化呢

1.歸一化後可加快 梯度下降求最優解的速度


上圖中,藍色的圈圈代表的是兩個特徵的等高線。其中左圖兩個特徵X1和X2的區間相差非常大,X1區間是[0,2000],X2區間是[1,5],像這種有的數據那麼大,有的數據那麼小,兩類之間的幅度相差這麼大,其所形成的等高線非常尖。當使用梯度下降法尋求最優解時,很有可能走“之字型”路線(垂直等高線走),從而導致需要迭代很多次才能收斂;甚至不能收斂。
而右圖對兩個原始特徵進行了歸一化,其對應的等高線顯得很圓,在梯度下降進行求解時能較快的速度進行收斂。

2. 歸一化有可能提高 精度。

一些分類器需要計算樣本之間的距離(如歐氏距離),例如KNN。如果一個特徵值域範圍非常大,那麼距離計算就主要取決於這個特徵,從而與實際情況相悖(比如這時實際情況是值域範圍小的特徵更重要)。

 3.歸一化類型

  • 線性歸一化

這種歸一化方法比較適用在數值比較集中的情況。這種方法有個缺陷,如果max和min不穩定,很容易使得歸一化結果不穩定,使得後續使用效果也不穩定。實際使用中可以用 經驗常量值 來替代max和min。

  • 標準差標準化

經過處理的數據符合標準正態分佈,即均值爲0,標準差爲1,其轉化函數爲:

其中μ爲所有樣本數據的 均值,σ爲所有樣本數據的 標準差。

  • 非線性歸一化

經常用在 數據分化比較大 的場景,有些數值很大,有些很小。通過一些數學函數,將原始值進行映射。該方法包括 log、指數,正切等。需要根據數據分佈的情況,決定非線性函數的曲線,比如log(V, 2)、log(V, 10)等。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章