一、稀疏特征
在我们做特征工程的时候,可能会碰到一个特征我们假设其特征列的符号值为v,其特征存在多种取值,标签label设为y,特征v如果有很多特征值对应标签y是相同的,那么这些v之间是没有意义的,我们称之为稀疏特征。这个时候我们可以进行合并稀疏特征,因为合并稀疏特征不仅可以降低计算成本,它也最小化了样品错误分类的可能性。
二、代码示例
# -*- coding: utf-8 -*-
import pandas as pd
def merge_sparse_feature(df):
df.loc[(df['x'] == 'one')
| (df['x'] == 'two')
| (df['x'] == 'three')
| (df['x'] == 'four')
, 'x'] = 'x_1'
df.loc[(df['x'] == 'five'
| (df['x'] == 'six'
| (df['x'] == 'seven'
| (df['x'] == 'eight')
| (df['x'] == 'nine')
, 'x'] = 'x_2'
return df
if __name__=='__main__':
df=pd.read_csv('data.csv')
df=one_hot(df)