Kaggle競賽入門教程之Kaggle簡介(新手向)

轉自:https://blog.csdn.net/colouroo/article/details/53730011

 

Kaggle號稱是全球最大的數據科學家匯聚的平臺,高手雲集,同時對萌新也很友好。Kaggle網址:https://www.kaggle.com/。目前爲止(2016.12)網站有這麼幾個版塊:
1、競賽competitions
2、數據datasets
3、代碼kernels
4、論壇forums
5、工作機會jobs
 
從版塊的歷史沿革來看,kaggel已經不滿足與競賽題目發佈-方案徵集的定位,正逐步發展成數據科學家學習、交流的綜合平臺。本篇重點介紹“競賽”、“數據”、“代碼”這幾個版塊,便於快速開啓一個kaggel競賽題目。
一、“競賽”版塊
“競賽”版塊是發佈競賽題目和參加競賽的入口。參加kaggle的競賽流程基本是:選一個題目>>下載數據>>訓練模型>>提交結果>>查看排名>>優化模型(迭代)>>最終提交>>比賽結束。
Kaggle競賽分類
從參賽者的角度看,競賽種類有:推薦比賽Featured、人才徵募Recruitment、研究型Research、遊樂場Playground、入門比賽Getting Started、課業比賽In Class。
 
推薦比賽Featured是瞄準商業問題帶有獎金的公開競賽。如果有幸贏得比賽,不但可以獲得獎金,模型也可能會被競賽贊助商應用到商業實踐中呢。
人才徵募Recruitment的競賽是贊助企業尋求數據科學家、算法設計人才的渠道。只允許個人參賽,不接受團隊報名。
研究型Research競賽通常是機器學習前沿技術或者公益性質的題目。競賽獎勵可能是現金,也有一部分以會議邀請、發表論文的形式獎勵。
遊樂場Playground裏的題目以有趣爲主,比如貓狗照片分類的問題。現在這個分類下的題目不算多,但是熱度很高。
入門比賽Getting Started給萌新們一個試水的機會,沒有獎金,但有非常多的前輩經驗可供學習。很久以前Kaggle這個欄目名稱是101的時候,比賽題目還很多,但是現在只保留了4個最經典的入門競賽:手寫數字識別、沉船事故倖存估計、臉部識別、Julia語言入門。
課業比賽In Class是學校教授機器學習的老師留作業的地方,這裏的競賽有些會向public開放參賽,也有些僅僅是學校內部教學使用。
除此以外,還有大師邀請賽Master、前沿探索型Kaggle Prospect等非公開的競賽,這裏不做介紹了。
Kaggle競賽的排名機制
瞭解Kaggle的排名機制也會對取得好成績有所幫助。在比賽結束之前,參賽者每天最多可以提交5次測試集的預測結果。每一次提交結果都會獲得最新的臨時排名成績,直至比賽結束獲得最終排名。在比賽過程中,Kaggle將參賽者每次提交的結果取出25%-33%,並依照準確率進行臨時排名。在比賽結束時,參賽者可以指定幾個已經提交的結果,Kaggle從中去除之前用於臨時排名的部分,用剩餘數據的準確率綜合得到最終排名。所以,比賽過程中用於最終排名的那部分數據,參賽者是始終得不到關於準確率的反饋的。這樣一定程度避免參賽模型的過擬合,保證評選出兼顧準確率和泛化能力的模型。
二、數據Datasets版塊
每一個競賽題目都有一個數據入口,描述數據相關的信息,與主頁上的Datasets選擇一個數據其實指向同一個地方。在這裏可以下載到提交結果的示範、測試集、訓練集。Kaggle的數據以CSV格式最常見,提交的結果也要求是CSV格式。 

三、代碼Kernels
這是Kaggle最棒的功能!在這裏可以看到其他參賽者自願公開的模型代碼,是學習和交流的最佳所在!當然這個版塊取名爲kernels,意味支持線上調試和運行你的代碼,目前支持Python、R,當然也支持像numpy、pandas流行的數據分析庫。對那些暫時缺少硬件資源的參賽者,相當於Kaggle提供了一個“雲計算”平臺不是嗎?我在kernels裏簡單寫了一個腳本查看kaggle提供的平臺硬件信息:(是說內存有110+G多麼?)
 
總之,可以作爲一個備選的計算資源,畢竟一個競賽的訓練集都至少有幾十M呢。
最後
“競賽”、“數據”、“代碼”這三個版塊的基本情況介紹完畢,後兩個版塊都是圍繞“競賽”設置的,每個版塊都有內嵌的鏈接跳轉到另外的版塊,又都發展出獨立的功能。快開始一個Kaggle比賽吧!

本篇譯作主要參考Kaggle官方網站的wiki(https://www.kaggle.com/wiki/Home)
--------------------- 
作者:utanbo 
來源:CSDN 
原文:https://blog.csdn.net/colouroo/article/details/53730011 
版權聲明:本文爲博主原創文章,轉載請附上博文鏈接!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章