Porto競賽結束後,很多參賽的選手都分享了自己的解決方案。借鑑大神們的經驗,爲以後的競賽中能夠取得好的成績增加一點自信。
Porto競賽
Porto競賽要求參賽選手預測用戶下一年發起汽車保險索賠的可能性。具體的描述請看Kaggle網站:
Porto競賽介紹
這個比賽作者也參加了,但是成績很不好。比賽的難點在於這是一個傳統的監督學習問題,但是特徵已經被Porto的舉辦方處理過,我們無法得知特徵的真實意義。在比賽初期,我花費了大量的時間來構建特徵,對結果的提升並不是很大。
第一名Michael Jahrer的解決方案
比賽結束後,第一名選手Michael Jahrer分享了他的解決方案。
1.數據預處理
Michael Jahrer在比賽中使用到了神經網絡,因此他對數據進行了歸一化,使用的是“RankGauss”工具。
2.特徵工程(feature engineering)
Michael Jahrer對特徵的處理主要有兩步:
一是刪除了*calc的特徵
二是對*cat的特徵進行了OneHot編碼
3.模型融合
Michael Jahrer的最終方案採用了模型融合,共兩層。
第一層:1個Lightgbm模型,5個NN模型
第二層:線性迴歸
最終以0.2965的成績獲得第一名。
總結
比賽結束後,看到Michael Jahrer放出來的方案,特徵工程中用到的方法之前在論壇裏都看到了,很多人這一步都差不多。大家的差距就是在模型上拉開的,我用嘗試了Random froest、XGBoost、Lightgbn等衆多的傳統算法,但是沒有用NN,到後期成績就一直上不去了,模型融合的提升也有限。所以說,深度學習的前景很廣闊,在很多的傳統問題上也可以取得不素的成績,擁抱改變。