數據預處理之將類別數據數字化的方法 —— LabelEncoder VS OneHotEncoder

原創

王大鱼

2020-02-20 17:16

LabelEncoder 和 OneHotEncoder 是什麼

在數據處理過程中，我們有時需要對不連續的數字或者文本進行數字化處理。
在使用 Python 進行數據處理時，用 encoder 來轉化 dummy variable（虛擬數據）非常簡便，encoder 可以將數據集中的文本轉化成0或1的數值。
LabelEncoder 和 OneHotEncoder 是 scikit-learn 包中的兩個功能，可以實現上述的轉化過程。
sklearn.preprocessing.OneHotEncoder 的官方介紹：LabelEncoder
sklearn.preprocessing.OneHotEncoder 的官方介紹：OneHotEnncoder

數據集中的類別數據

在使用迴歸模型和機器學習模型時，所有的考察數據都是數值更容易得到好的結果。因爲迴歸和機器學習都是基於數學函數方法的，所以當我們要分析的數據集中出現了類別數據(categorical data)，此時的數據是不理想的，因爲我們不能用數學的方法處理它們。例如，在處理男和女兩個性別數據時，我們用0和1將其代替，再進行分析。由於這種情況的出現，我們需要可以將文字數字化的現成方法。

LabelEncoder 和 OneHotEncoder 的例子

下面是一個使用 Python sci-kit 包中 LableEncoder 和 OneHotEncoder 的具體例子：

LableEncoder VS OneHotEncoder

首先，我們需要創建一個變量 encoder_x 來進行編碼工作。
程序執行過後，我們的類別數據就被轉化成了數值0、1、2、3.
顯然這種結果還不理想，因爲計算機會對這些數值進行對比，例如2比1大，3比2也大，不利於我們進行數據分析。所以我們需要對這些數值進行再次的處理，得到一些虛擬數據。
接下來我們就需要藉助 OneHotEncoder 來創造一些虛擬數據。
OneHotEncoder 可以把數據分成多個不同的列，每一列都用0或1來表示。
使用 OneHotEncoder 時，我們需要指明要處理的列。在這個例子中，我們想對第一列虛擬數據進行編碼處理，所以我們設定 categorical_features 中的 index＝0。

下面是具體代碼：

from sklearn.preprocessing import LabelEncoder, OneHotEncoder
encoder_x=LabelEncoder()
x[:,0]=encoder_x.fit_transform(x[:,0])
onehotencoder = onehotencoder(categorical_features = [0])
x=onehotencoder.fit_transform(x).toarray()
x=[:,1:]