Porto競賽第一名解決方法

原創

王十二的

2018-08-22 01:32

Porto競賽結束後，很多參賽的選手都分享了自己的解決方案。借鑑大神們的經驗，爲以後的競賽中能夠取得好的成績增加一點自信。

Porto競賽

Porto競賽要求參賽選手預測用戶下一年發起汽車保險索賠的可能性。具體的描述請看Kaggle網站：
Porto競賽介紹

這個比賽作者也參加了，但是成績很不好。比賽的難點在於這是一個傳統的監督學習問題，但是特徵已經被Porto的舉辦方處理過，我們無法得知特徵的真實意義。在比賽初期，我花費了大量的時間來構建特徵，對結果的提升並不是很大。

第一名Michael Jahrer的解決方案

比賽結束後，第一名選手Michael Jahrer分享了他的解決方案。

1.數據預處理

Michael Jahrer在比賽中使用到了神經網絡，因此他對數據進行了歸一化，使用的是“RankGauss”工具。

2.特徵工程（feature engineering)

Michael Jahrer對特徵的處理主要有兩步：
一是刪除了*calc的特徵
二是對*cat的特徵進行了OneHot編碼

3.模型融合

Michael Jahrer的最終方案採用了模型融合，共兩層。
第一層：1個Lightgbm模型，5個NN模型
第二層：線性迴歸

最終以0.2965的成績獲得第一名。

總結

比賽結束後，看到Michael Jahrer放出來的方案，特徵工程中用到的方法之前在論壇裏都看到了，很多人這一步都差不多。大家的差距就是在模型上拉開的，我用嘗試了Random froest、XGBoost、Lightgbn等衆多的傳統算法，但是沒有用NN，到後期成績就一直上不去了，模型融合的提升也有限。所以說，深度學習的前景很廣闊，在很多的傳統問題上也可以取得不素的成績，擁抱改變。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Porto競賽第一名解決方法

Porto競賽

第一名Michael Jahrer的解決方案

1.數據預處理

2.特徵工程（feature engineering)

3.模型融合

總結

Wireshark 安裝+使用（一）

博客園商業化之路-衆包平臺：繼續召集早期合作開發者

Sql 鏈接查詢

Kaggle入門系列：（二）機器學習環境搭建

深度學習入門：Tensorflow實戰Digit Recognizer

【資源】2018年，你最需要的機器學習資料整理分享

Porto競賽第一名解決方法

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結