高級特徵工程

原創

2020-06-25 12:58

均值編碼（mean ecoding）

1）有監督類型的編碼方式：根據label進行編碼，在類別Moscow中的feature_mean = #(target=1)/#Moscow（注意與frequency encoding編碼的區別）

means = X_tr.groupby(col).target.mean()
train_new[col+'_mean_target'] = train_new[col].map(means)
val_new[col+'_mean_target'] = val_new[col].map(means)

2）均值編碼的效果能夠幫助目標對象分離，而普通的Label Encoding由於屬於無監督編碼，其編碼最後的效果比較隨機。

3）均值編碼的正則化技術

策略：

CV loop inside training data（推薦）
Smoothing
Adding random noise
Sorting and calculating expanding mean

使用CV技術來進行均值編碼：使用4-5折交叉驗證技術，對每一個fold利用其餘子集的均值進行編碼，而不是使用整個數據集的均值對特徵進行編碼。

代碼實現：

y_tr = df_tr['target'].values
skf = StratifiedKFold(y_tr,5,shuffle=True,random_state=123)
for tr_ind,val_ind in skf:
    X_tr,X_val = df_tr.iloc[tr_ind],d_tr.iloc[val_ind]
    for in cols: ## Iterate through the need to ecode cols
        means = X_val[col].map(X_tr.groupby(col)['target'].mean())
        X_val[col+'_mean_target'] = means
    train_new.iloc[val_ind] = X_val

prior = df_tr['target'].mean()
train_new.fillna(prior,inplace=True)

Smoothing：在原來均值編碼的基礎上添加一項係數α來正則化表達，α需要調參。計算公式如下：

Expanding mean 擴展均值：

cumsum = df_tr.groupby(col).['target'].cumsum() - df_tr['target']
cumcnt = df_tr.groupby(col).cumcount()
train_new[col+'_mean_target'] = cumsum/cumcnt

還有很多代表性的技術：

統計特徵與鄰域特徵

1）groupby：依靠特徵之間的依賴關係生成新的統計特徵，例如下表中，利用User和page之間關係，生成對應的Ad_price和Ad_position的特徵。

gb=df.groupby(['User_id','Page_id'],as_index=False).agg(
                {"Ad_price":{'Max_price':np.max,'Min_price':np.min}
                }
             )
gb.columns = ['user_id','page_id','min_price','max_price']
df = pd.merge(df,gb,how='left',on=['User_id','Page_id'])

Note：agg函數的應用，實例如下：