一、稀疏特徵
在我們做特徵工程的時候,可能會碰到一個特徵我們假設其特徵列的符號值爲v,其特徵存在多種取值,標籤label設爲y,特徵v如果有很多特徵值對應標籤y是相同的,那麼這些v之間是沒有意義的,我們稱之爲稀疏特徵。這個時候我們可以進行合併稀疏特徵,因爲合併稀疏特徵不僅可以降低計算成本,它也最小化了樣品錯誤分類的可能性。
二、代碼示例
# -*- coding: utf-8 -*-
import pandas as pd
def merge_sparse_feature(df):
df.loc[(df['x'] == 'one')
| (df['x'] == 'two')
| (df['x'] == 'three')
| (df['x'] == 'four')
, 'x'] = 'x_1'
df.loc[(df['x'] == 'five'
| (df['x'] == 'six'
| (df['x'] == 'seven'
| (df['x'] == 'eight')
| (df['x'] == 'nine')
, 'x'] = 'x_2'
return df
if __name__=='__main__':
df=pd.read_csv('data.csv')
df=one_hot(df)