高级特征工程

原創

2020-06-25 12:58

均值编码（mean ecoding）

1）有监督类型的编码方式：根据label进行编码，在类别Moscow中的feature_mean = #(target=1)/#Moscow（注意与frequency encoding编码的区别）

means = X_tr.groupby(col).target.mean()
train_new[col+'_mean_target'] = train_new[col].map(means)
val_new[col+'_mean_target'] = val_new[col].map(means)

2）均值编码的效果能够帮助目标对象分离，而普通的Label Encoding由于属于无监督编码，其编码最后的效果比较随机。

3）均值编码的正则化技术

策略：

CV loop inside training data（推荐）
Smoothing
Adding random noise
Sorting and calculating expanding mean

使用CV技术来进行均值编码：使用4-5折交叉验证技术，对每一个fold利用其余子集的均值进行编码，而不是使用整个数据集的均值对特征进行编码。

代码实现：

y_tr = df_tr['target'].values
skf = StratifiedKFold(y_tr,5,shuffle=True,random_state=123)
for tr_ind,val_ind in skf:
    X_tr,X_val = df_tr.iloc[tr_ind],d_tr.iloc[val_ind]
    for in cols: ## Iterate through the need to ecode cols
        means = X_val[col].map(X_tr.groupby(col)['target'].mean())
        X_val[col+'_mean_target'] = means
    train_new.iloc[val_ind] = X_val

prior = df_tr['target'].mean()
train_new.fillna(prior,inplace=True)

Smoothing：在原来均值编码的基础上添加一项系数α来正则化表达，α需要调参。计算公式如下：

Expanding mean 扩展均值：

cumsum = df_tr.groupby(col).['target'].cumsum() - df_tr['target']
cumcnt = df_tr.groupby(col).cumcount()
train_new[col+'_mean_target'] = cumsum/cumcnt

还有很多代表性的技术：

统计特征与邻域特征

1）groupby：依靠特征之间的依赖关系生成新的统计特征，例如下表中，利用User和page之间关系，生成对应的Ad_price和Ad_position的特征。

gb=df.groupby(['User_id','Page_id'],as_index=False).agg(
                {"Ad_price":{'Max_price':np.max,'Min_price':np.min}
                }
             )
gb.columns = ['user_id','page_id','min_price','max_price']
df = pd.merge(df,gb,how='left',on=['User_id','Page_id'])

Note：agg函数的应用，实例如下：

2）近邻特征：反映区域的特征

矩阵分解

不同的特征群通过降维进行融合

可以仅仅对样本集的某些特征进行降维分解
提供了额外的多样性
- 利于模型融合
存在信息的损失，对于某些特定的任务比较有效
- 降维后的维度一般在5-100
- 特定任务

具体实现：

SVD 和PCA
TruncatedSVD
- 针对稀疏矩阵
None-negative Matrix Factorization(NMF)
- 确保所有的元素非负
- 对计数（count）性质的数据比较好

注意：在全数据集上做降维，而不要只在训练集上

特征交互

1）类别变量通过特征之间的join形成新的特征，进行one-hot编码

如果某些特征之间具有从属关系，例如国家与省、省与市可以通过join生成新的特征，总的来说join出来的特征要具有一定物理意义上的可解释性。

策略1：

策略2：

2）数值类型变量可以通过两两特征之间的基本数学运算形成新的特征

常见的操作：乘、加、减

实战中，会存在很多种不同特征之间的交互，因此一方面在进行交互生成特征中要充分考虑特征之间的物理含义，二对于生成的特征可以进行维度约简的操作（降维），或者根据树模型的特征重要性进行特征选择。

3）从树模型的叶子节点中提取特征

通过每个样本在树模型叶子节点的Index进行特征生成，最后通过Liner Model实现任务要求，具体的实现查看树模型的帮助文档一般会提供相应的API接口获取每个样本的叶子节点编码特征。

实例：

tSNE

前面谈到的降维技术主要是线性降维，而tSNE属于非线性降维方法，或者称为流形学习。

tSNE在EDA分析中经常使用，tSNE对超参数的设置异常敏感，因此在实际应用中要注意以下几点：

尝试不同的hyperparameters
train和test需要放在一起降维
当矩阵维度过大时，需要事先降维处理，再进行tSNE

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

[kaggle]华盛顿单车数据预测

我在git上push了我的代碼。同時做成jupyter view。 csdn取消了對jupyter view的支持,請移步。

2020-07-08 07:41:50

[kaggle]座头鲸1st place方案解读

這裏記錄我在解決1st place 方案時積累的知識. 1*1的卷積核的作用:可以增加通道或者降低通道數量,減少訓練參數. Xception: 綜述 Momentum優化SGD 遷移學習：根據數據集分四種情況，1.數據集比較小且

2020-07-08 07:41:49

Kaggle ： Display Advertising Challenge( ctr 预估 )

Display Advertising Challenge ---------2015/1/12 一：背景 CriteoLabs 2014年7月份在kaggle上發起了一次關於展示廣告點擊率的預估比賽。CriteoLabs是第三方展示

2020-07-04 22:34:19

kaggle 竞赛：手写数字识别源代码与相关总结

前言第一次嘗試Kaggle，是經典的手寫數字識別的例子，其實這個MNIST數據集識別已經玩膩了，只不過這次是在Kaggle上，用他完成一整套的競賽流程，爲以後的大數據競賽做好準備，其實，對我而言，這次的MNIST數據集識別與平時

2020-07-04 21:09:07

kaggle比赛流程记录

下週一平安科技的遠程面試，準備30分鐘的PPT，主要是介紹相關項目經驗，着重技術，代碼，模型，算法等方面今天大致看了一下kaggle上面的入門級比賽，主要是熟悉一下流程首先要註冊kaggle賬號，我用的是gmail郵箱登錄的

哈哈哈哈士奇VIP

2020-07-01 02:48:15

Instacart Market Basket Analysis

Instacart Market Basket Analysis kaggle賽題鏈接數據理解比賽使用的數據僅包含交易數據，不包含瀏覽數據。主要由以下幾張表構成：訂單表 orders（訂單ID，用戶ID，所屬數據集，該用

张先生-您好

2020-06-27 21:03:40

EDA 分析

分析數據-設置驗證集-檢查數據泄露分析步驟：瞭解領域知識搜索關鍵詞，搜索數據的含義檢查數據是否存在異常值，超出範圍的值理解如何生成特徵分析匿名數據（Anonymized data）對於某些數據

2020-06-25 12:58:53

【Kaggle】参加竞赛基本流程（以Titanic为例）

前言第一次參加Kaggle的時候，看了很多入門帖，但是還是看不懂不知道到底怎麼參加，是在Kaggle上提交代碼嗎，像互聯網公司程序員在線考試一樣？還是提交預測的結果？沒有一個像”Hello World”一樣簡單但是又完整的流程

2020-06-19 08:40:27

[Kaggle竞赛] IEEE-CIS Fraud Detection

文章目錄0.寫在前面1.EDA1.1 觀察數據1.2 處理缺失值1.3 挖掘數據隱含信息以便模型利用2.Deep Feature Engineering3.特徵篩選+降維（實驗記錄）4.lightGBM+best_paramete

2020-06-16 14:14:45

建筑楼层大规模能量预测代码笔记

建築樓層大規模能量預測代碼筆記記錄的都是一些python的寫法問題，歸結於自己太菜了，python如此強大的功能，很多都沒看到過 from sklearn.preprocessing import LabelEncoder fr

sakurasakura1996

2020-06-16 05:51:15

百度AI Studio使用kaggle的记录

百度AI Studio使用kaggle的記錄因爲沒有實際主機，所以只能白嫖百度的這個免費算力，然後想用它跑一些代碼，比如kaggle上面的競賽題目，可是數據集不能直接下載，如果下載到本地，數據集太大不給上傳，所以只能通過命令行的

sakurasakura1996

2020-06-16 05:51:05

Kaggle --ASHRAE - Great Energy Predictor III

Kaggle --ASHRAE - Great Energy Predictor III 和大佬室友進行這種比賽，完全不知道該怎麼搞啊，只能在kaggle上面看了看別人的東西，這個大佬寫的還挺簡捷的，所以自己拷貝下來運行了一遍

sakurasakura1996

2020-06-16 05:51:05

Kaggle Digit Recognizer别人分享的tricks

Kaggle Digit Recognizer別人分享的tricks 自己在利用CNN做了kaggle上的入門題——Digit Recognizer,簡單的利用了CNN的網絡架構就實現了0.98+的準確率，但還是不夠啊，所以看了上

sakurasakura1996

2020-06-16 05:51:05

[Kaggle] kernel中常用方法和语句总结

目錄讀取數據表格類型數據讀數據，看行數、列數，前幾行 EDA 查看目標變量分佈目標變量爲分類變量查看缺失值目標dataframe缺失數據的分佈查看不同類型變量情況 Category/分類變量預處理 object類型的變量

2020-06-13 02:21:51

Kaggle | IEEE Fraud Detection（Data Processing and Simplest Model）

IEEE Fraud Detection - Data Processing and Simplest Model In this section we will do some data cleaning jobs, which

2020-06-12 18:06:10

24小時熱門文章

最新文章

最新評論文章