【Machine Learning】特征工程之合并稀疏特征

一、稀疏特征       

         在我们做特征工程的时候,可能会碰到一个特征我们假设其特征列的符号值为v,其特征存在多种取值,标签label设为y,特征v如果有很多特征值对应标签y是相同的,那么这些v之间是没有意义的,我们称之为稀疏特征。这个时候我们可以进行合并稀疏特征,因为合并稀疏特征不仅可以降低计算成本,它也最小化了样品错误分类的可能性。

二、代码示例

# -*- coding: utf-8 -*-

import pandas as pd

def merge_sparse_feature(df):
    df.loc[(df['x'] == 'one')
           | (df['x'] == 'two')
           | (df['x'] == 'three')
           | (df['x'] == 'four')
    , 'x'] = 'x_1'


    df.loc[(df['x'] == 'five'
           | (df['x'] == 'six'
           | (df['x'] == 'seven'
           | (df['x'] == 'eight')
           | (df['x'] == 'nine')
    , 'x'] = 'x_2'

    return df

if __name__=='__main__':
    df=pd.read_csv('data.csv')
    df=one_hot(df)




發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章