特徵工程之標準化

原創

2020-06-19 09:19

數據和特徵決定了機器學習算法的上限，而模型和算法只是不斷逼近這個上限而已

數據標準化也就是統計數據的指數化。數據標準化處理主要包括數據同趨化處理和無量綱化處理兩個方面：
數據同趨化處理主要解決不同性質數據問題，對不同性質指標直接加總不能正確反映不同作用力的綜合結果，須先考慮改變逆指標數據性質，使所有指標對測評方案的作用力同趨化，再加總才能得出正確結果。
數據無量綱化處理主要解決數據的可比性。

歸一化Max-Min
min-max標準化方法是對原始數據進行線性變換。設minA和maxA分別爲屬性A的最小值和最大值，將A的一個原始值x通過min-max標準化映射成在區間[0,1]中的值x’，其公式爲：
新數據=（原數據-最小值）/（最大值-最小值）
這種方法能使數據歸一化到一個區域內，同時不改變原來的數據結構。
實現中心化Z-Score
這種方法基於原始數據的均值（mean）和標準差（standard deviation）進行數據的標準化。將A的原始值x使用z-score標準化到x’。
z-score標準化方法適用於屬性A的最大值和最小值未知的情況，或有超出取值範圍的離羣數據的情況。
新數據=（原數據-均值）/標準差
這種方法適合大多數類型數據，也是很多工具的默認標準化方法。標準化之後的數據是以0爲均值，方差爲以的正太分佈。但是Z-Score方法是一種中心化方法，會改變原有數據的分佈結構，不適合用於對稀疏數據做處理。
很多時候數據集會存在稀疏特徵，表現爲標準差小，很多元素值爲0，最常見的稀疏數據集是用來做協同過濾的數據集，絕大部分數據都是0。對稀疏數據做標準化，不能採用中心化的方式，否則會破壞稀疏數據的結構。
用於稀疏數據的MaxAbs
最大值絕對值標準化（MaxAbs）即根據最大值的絕對值進行標準化，假設原轉換的數據爲x，新數據爲x’，那麼x’=x/|max|，其中max爲x鎖在列的最大值。
該方法的數據區間爲[-1, 1]，也不破壞原數據結構的特點，因此也可以用於稀疏數據，一些稀疏矩陣。
針對離羣點的RobustScaler
有些時候，數據集中存在離羣點，用Z-Score進行標準化，但是結果不理想，因爲離羣點在標準化後喪失了利羣特性。RobustScaler針對離羣點做標準化處理，該方法對數據中心化的數據的縮放健壯性有更強的參數控制能力。

import numpy as np
import pandas as pd
from sklearn import preprocessing
import matplotlib.pyplot as plt
from sklearn.datasets import make_moons
import matplotlib.pyplot as plt
%matplotlib inline

# 導入數據
data = make_moons(n_samples=200, noise=10)[0]


#Z-Score標準化
#建立StandardScaler對象
zscore = preprocessing.StandardScaler()
# 標準化處理
data_zs = zscore.fit_transform(data)


#Max-Min標準化
minmax = preprocessing.MinMaxScaler()
data_minmax = minmax.fit_transform(data)


#MaxAbs標準化
maxabs = preprocessing.MaxAbsScaler()
data_maxabs = maxabs.fit_transform(data)


#RobustScaler標準化
robust = preprocessing.RobustScaler()
data_rob = robust.fit_transform(data)

例子：

from sklearn.preprocessing import StandardScaler,RobustScaler,MinMaxScaler
minmax=MinMaxScaler()
X_F=minmax.fit_transform(DDDD)
MM=pd.DataFrame(X_F,columns=['active_degree_dialed_time', 'dialed_cnt6'])

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

特徵工程之標準化

常用的 Git 指令

sm4加密工具類

matplotlib—高級篇

特徵工程之標準化

matplotlib—畫正弦、餘弦函數圖

神經網路反向傳播（BP）算法原理

python獲取mysql表頭名稱

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結