如何進行特徵歸一化

爲了使不同的特徵之間具有可比性,我們往往需要對特徵進行歸一化處理。比如現在對大管的外貌特徵進行分析,大管身高1.70米,體重60kg,那麼這樣分析出的結果顯然會偏向較大的體重特徵。想要更爲準確的結果,就需要對大管的身高體重進行歸一化(Normalization)處理。

對數值類型的特徵做歸一化可以將特徵統一到一個大致相同的數值區間內。最常用的方法有以下兩種:

(1)線性函數歸一化(Min-Max Scaling)

這種方法對原始的數據進行變化,使其映射到[0,1]的範圍,實現對原始數據的等比縮放。

 

x爲原始數據,xmin爲最小值,xmax爲最大值,xnormal爲輸出結果。

(2)零均值歸一化(Z-Score Normalization)

這種方法會將數據映射到均值爲0,標準差爲1的分佈上。假設原始特徵的均值爲μ,標準差爲σ,那麼歸一化的公式爲:

歸一化除了使特徵在同一個量綱裏方便比較,還有什麼重要性呢?在學習速率相同的情況下,歸一化會使得特徵的更新速度變化一致,更容易的通過梯度下降法找到最優解(這也是基於特徵處於一個相同的量綱中)。如下圖所示

在實際應用中,線性迴歸、邏輯迴歸、支持向量機、神經網絡通常需要歸一化,但是對於決策樹模型卻不適合用。

 

歡迎小夥伴留言,關注,進行交流。

更多內容請掃描下方二維碼關注小編公衆號:程序員大管

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章