【Machine Learning】特徵工程之合併稀疏特徵

一、稀疏特徵       

         在我們做特徵工程的時候,可能會碰到一個特徵我們假設其特徵列的符號值爲v,其特徵存在多種取值,標籤label設爲y,特徵v如果有很多特徵值對應標籤y是相同的,那麼這些v之間是沒有意義的,我們稱之爲稀疏特徵。這個時候我們可以進行合併稀疏特徵,因爲合併稀疏特徵不僅可以降低計算成本,它也最小化了樣品錯誤分類的可能性。

二、代碼示例

# -*- coding: utf-8 -*-

import pandas as pd

def merge_sparse_feature(df):
    df.loc[(df['x'] == 'one')
           | (df['x'] == 'two')
           | (df['x'] == 'three')
           | (df['x'] == 'four')
    , 'x'] = 'x_1'


    df.loc[(df['x'] == 'five'
           | (df['x'] == 'six'
           | (df['x'] == 'seven'
           | (df['x'] == 'eight')
           | (df['x'] == 'nine')
    , 'x'] = 'x_2'

    return df

if __name__=='__main__':
    df=pd.read_csv('data.csv')
    df=one_hot(df)




發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章