微軟NNI-業內最親民的AutoML工具學習筆記（1）：AutoFeatureENG

原創

2020-06-30 14:16

01 AutoML概述

記得若干年前的某次週會上，我說“AutoML不光是調參，應該包含自動特徵工程。”當時得到了大佬們的嘲諷，說我不懂技術瞎說。今天回過頭來看AutoML是一個系統化的體系，包含3個要素：

自動特徵工程AutoFeatureEng
自動調參AutoTuning
自動神經網絡探索NAS

02 NNI概述

NNI（NerualNetworkIntelligence）是微軟發起的一個AutoML開源工具，覆蓋了上文提到的3要素，地址：

https://github.com/SpongebBob/tabular_automl_NNI

我目前只學習了自動特徵工程這一個模塊，總體看微軟的工具都有一個比較大的特點，技術可能不一定多新穎，但是設計都非常贊。NNI的AutoFeatureENG基本包含了用戶對於AutoFeatureENG的一切幻想。在微軟做PD應該挺幸福吧，底層的這些個框架的設計都極爲合理。

03 細說NNI-AutoFeatureENG

使用是非常簡單的，安裝下文件中的require，然後

pip install NNI

NNI把AutoFeatureENG拆分成exploration和selection兩個模塊。exploration主要是特徵衍生和交叉，selection講的是如何做特徵篩選。

04 特徵Exploration

在特徵衍生方面，微軟教科書般的把特徵衍生分成以下一些方式：

count：傳統的統計，統計一些數據的出現頻率

target：特徵和目標列的一些映射特徵

embedding：把特徵看成句子，用word2vector的方式製作向量

crosscount：特徵間除法，有點類似CTR

aggregete：特徵的min/max/var/mean

nunique、histstat：：這兩個沒太看懂

具體特徵怎麼交叉，哪一列和哪一列交叉，每一列特徵用什麼方式衍生呢？可以通過search_space.json這個文件控制。

Exploration的目的就是長生出新的特徵。在代碼裏可以用get parameter的方式獲取tuning的參數：

    RECEIVED_PARAMS = nni.get_next_parameter()

05 特徵Selection

爲了避免特徵氾濫的情況，避免過擬合，一定要有Selection的機制挑選特徵。這裏微軟同學用了個小心機，在特徵篩選的時候主推了同樣是他們自己開源的算法lightGBM，

瞭解xgboost或者GBDT算法同學應該知道，這種樹形結構的算法是很容易計算出每個特徵對於結果的影響的。所以使用lightGBM可以天然的進行特徵篩選。弊病就是，如果下游是個LR這種線性算法，篩選出來的特徵是否具備普適性。跑通後產出的結果包含了每個特徵的value以及屬性。

06 總結

NNI的AutoFeature模塊是給整個行業制定了一個教科書般的標準，告訴大家這個東西要怎麼做，有哪些模塊，使用起來非常方便。但是如果只是基於這樣簡單的模式，不一定能達到很好的效果。我覺得在Exploration方面可以引用一些DNN的特徵組合方式，提取更高維度的特徵。在Selection方面可以有更多的智能化方案，比如可以基於下游的算法自動選擇Selection機制。

總之NNI在設計曾給了我一些啓發，還是一個挺好的開源項目，推薦給大家~大家用的時候如果是Mac電腦可能會遇到gcc的問題，因爲開源項目自帶的腳本是基於gcc7編譯的，可以用下面的方法繞過去。

brew install libomp

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

微軟NNI-業內最親民的AutoML工具學習筆記（1）：AutoFeatureENG

01 AutoML概述

02 NNI概述

03 細說NNI-AutoFeatureENG

04 特徵Exploration

05 特徵Selection

06 總結

最全推薦系統Embedding召回算法總結

李小璐PGONE事件對推薦系統的考驗

【教程】sqlflow實現用sql玩轉機器學習

基於外賣評論的輿情風控

Graph Embedding方案之DeepWalk

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結