數據如何歸一化類型

原創

2018-08-21 01:39

爲什麼要歸一化呢

1.歸一化後可加快梯度下降求最優解的速度

上圖中，藍色的圈圈代表的是兩個特徵的等高線。其中左圖兩個特徵X1和X2的區間相差非常大，X1區間是[0,2000]，X2區間是[1,5]，像這種有的數據那麼大，有的數據那麼小，兩類之間的幅度相差這麼大，其所形成的等高線非常尖。當使用梯度下降法尋求最優解時，很有可能走“之字型”路線（垂直等高線走），從而導致需要迭代很多次才能收斂；甚至不能收斂。
而右圖對兩個原始特徵進行了歸一化，其對應的等高線顯得很圓，在梯度下降進行求解時能較快的速度進行收斂。

2. 歸一化有可能提高精度。

一些分類器需要計算樣本之間的距離（如歐氏距離），例如KNN。如果一個特徵值域範圍非常大，那麼距離計算就主要取決於這個特徵，從而與實際情況相悖（比如這時實際情況是值域範圍小的特徵更重要）。

3.歸一化類型

線性歸一化

這種歸一化方法比較適用在數值比較集中的情況。這種方法有個缺陷，如果max和min不穩定，很容易使得歸一化結果不穩定，使得後續使用效果也不穩定。實際使用中可以用經驗常量值來替代max和min。

標準差標準化

經過處理的數據符合標準正態分佈，即均值爲0，標準差爲1，其轉化函數爲：

其中μ爲所有樣本數據的均值，σ爲所有樣本數據的標準差。

非線性歸一化

經常用在數據分化比較大的場景，有些數值很大，有些很小。通過一些數學函數，將原始值進行映射。該方法包括 log、指數，正切等。需要根據數據分佈的情況，決定非線性函數的曲線，比如log(V, 2)、log(V, 10)等。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

數據如何歸一化類型

1.歸一化後可加快梯度下降求最優解的速度

2. 歸一化有可能提高精度。

3.歸一化類型

中文分詞工具—Jieba

lightGBM使用教程

紅黑樹和AVL樹（平衡二叉樹）區別

【排序方法總結】希爾排序快速排序歸併排序堆排序等 Python實現

Android Studio3安裝圖文教程

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

數據如何歸一化 類型

1.歸一化後可加快 梯度下降求最優解的速度

2. 歸一化有可能提高 精度。

3.歸一化類型

數據如何歸一化類型

1.歸一化後可加快梯度下降求最優解的速度

2. 歸一化有可能提高精度。