Python數據預處理：徹底理解標準化和歸一化

原創

简说Python

2020-07-02 13:52

文章來源：機器學習算法與Python實戰

作者：爲衚衕學點贊

數據預處理

數據中不同特徵的量綱可能不一致，數值間的差別可能很大，不進行處理可能會影響到數據分析的結果，因此，需要對數據按照一定比例進行縮放，使之落在一個特定的區域，便於進行綜合分析。

常用的方法有兩種：

最大 - 最小規範化：對原始數據進行線性變換，將數據映射到[0,1]區間

Z-Score標準化：將原始數據映射到均值爲0、標準差爲1的分佈上

爲什麼要標準化/歸一化？

提升模型精度：標準化/歸一化後，不同維度之間的特徵在數值上有一定比較性，可以大大提高分類器的準確性。

加速模型收斂：標準化/歸一化後，最優解的尋優過程明顯會變得平緩，更容易正確的收斂到最優解。

如下圖所示：

哪些機器學習算法需要標準化和歸一化

1）需要使用梯度下降和計算距離的模型要做歸一化，因爲不做歸一化會使收斂的路徑程z字型下降，導致收斂路徑太慢，而且不容易找到最優解，歸一化之後加快了梯度下降求最優解的速度，並有可能提高精度。比如說線性迴歸、邏輯迴歸、adaboost、xgboost、GBDT、SVM、NeuralNetwork等。需要計算距離的模型需要做歸一化，比如說KNN、KMeans等。

2）概率模型、樹形結構模型不需要歸一化，因爲它們不關心變量的值，而是關心變量的分佈和變量之間的條件概率，如決策樹、隨機森林。

徹底理解標準化和歸一化

示例數據集包含一個自變量（已購買）和三個因變量（國家，年齡和薪水），可以看出用薪水範圍比年齡寬的多，如果直接將數據用於機器學習模型（比如KNN、KMeans），模型將完全有薪水主導。

#導入數據
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
df = pd.read_csv('Data.csv')

缺失值均值填充,處理字符型變量

df['Salary'].fillna((df['Salary'].mean()), inplace= True)
df['Age'].fillna((df['Age'].mean()), inplace= True)
df['Purchased'] = df['Purchased'].apply(lambda x: 0 if x=='No' else 1)
df=pd.get_dummies(data=df, columns=['Country'])

最大 - 最小規範化

from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
scaler.fit(df)
scaled_features = scaler.transform(df)
df_MinMax = pd.DataFrame(data=scaled_features, columns=["Age", "Salary","Purchased","Country_France","Country_Germany", "Country_spain"])

Z-Score標準化

from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
sc_X = sc_X.fit_transform(df)
sc_X = pd.DataFrame(data=sc_X, columns=["Age", "Salary","Purchased","Country_France","Country_Germany", "Country_spain"])

import seaborn as sns
import matplotlib.pyplot as plt
import statistics
plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']
fig,axes=plt.subplots(2,3,figsize=(18,12)) 
sns.distplot(df['Age'], ax=axes[0, 0])
sns.distplot(df_MinMax['Age'], ax=axes[0, 1])
axes[0, 1].set_title('歸一化方差：% s '% (statistics.stdev(df_MinMax['Age'])))
sns.distplot(sc_X['Age'], ax=axes[0, 2])
axes[0, 2].set_title('標準化方差：% s '% (statistics.stdev(sc_X['Age'])))
sns.distplot(df['Salary'], ax=axes[1, 0])
sns.distplot(df_MinMax['Salary'], ax=axes[1, 1])
axes[1, 1].set_title('MinMax：Salary')
axes[1, 1].set_title('歸一化方差：% s '% (statistics.stdev(df_MinMax['Salary'])))
sns.distplot(sc_X['Salary'], ax=axes[1, 2])
axes[1, 2].set_title('StandardScaler:Salary')
axes[1, 2].set_title('標準化方差：% s '% (statistics.stdev(sc_X['Salary'])))

可以看出歸一化比標準化方法產生的標準差小，使用歸一化來縮放數據，則數據將更集中在均值附近。這是由於歸一化的縮放是“拍扁”統一到區間（僅由極值決定），而標準化的縮放是更加“彈性”和“動態”的，和整體樣本的分佈有很大的關係。所以歸一化不能很好地處理離羣值，而標準化對異常值的魯棒性強，在許多情況下，它優於歸一化。

參考：https://towardsdatascience.com/data-transformation-standardisation-vs-normalisation-a47b2f38cec2

近期推薦閱讀：
【1】整理了我開始分享學習筆記到現在超過250篇優質文章，涵蓋數據分析、爬蟲、機器學習等方面，別再說不知道該從哪開始，實戰哪裏找了【2】【終篇】Pandas中文官方文檔：基礎用法6（含1-5)
如果你覺得文章不錯的話，分享、收藏、在看、留言666是對老表的最大支持。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Python數據預處理：徹底理解標準化和歸一化

數據預處理

爲什麼要標準化/歸一化？

哪些機器學習算法需要標準化和歸一化

徹底理解標準化和歸一化

AI 畫圖真刺激，手把手教你如何用 ComfyUI 來畫出刺激的圖

公司剛入職了一名 Java 中級開發，短短 4 行代碼居然湊齊了 3 個 bug！我哭了~~

公衆號5月C#/.NET熱文一覽

git 下載大陸鏡像地址

我去，Excel還有這個操作

驚呆了，我的 Python 代碼裏面出現了薛定諤的 Bug

Python數據預處理：徹底理解標準化和歸一化

對比python字符串函數，學習pandas的str矢量化字符串函數

身家454億美元，超馬雲（439億）成中國第二富豪，黃崢和他背後的拼多多

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結