[Kaggle實戰] Titanic 逃生預測 (1) - 項目起步

這次實戰的Kaggle比賽,其實只是其中一個沒有獎金的公益比賽。

主頁: http://www.kaggle.com/c/titanic-gettingStarted

主題是:

Titanic: Machine Learning from Disaster

在比賽之中,官方給出了一些原始的一半的數據作爲比賽用的訓練集與測試集。另外一半作爲官方自己的測試集。最後成績評定也是會使用官方自己留着的一半數據進行評比。

注意: 有一個取巧的方式,那就是去網上去搜索全部原始數據並依此爲基礎提交算法。 好吧,我用的是比這個笨的方法:)

 

 

在這裏介紹一下,我比較擅長的是java,並且也希望使用java完成這次比賽。

如果希望使用Python,可以參考:http://triangleinequality.wordpress.com/2013/09/05/a-complete-guide-to-getting-0-79903-in-kaggles-titanic-competition-with-python/

 

爲了完成這次比賽,首先需要下載官方的數據集。



 訓練集用Excel打開之後的樣子:




 

下面解釋一下訓練集之中的數據:

PassengerId 旅客ID  這條數據應該沒啥用
Survived 是否活下來了,1:yes  0:no 這個應該是對我們很有用的一個數據
Pclass  旅客等級 1 2 3 分別代表不同的等級  
Name 名字   
 Sex  性別  
 Age  年齡  
 SibSp

 有多少兄弟姐妹/配偶同船

Number of Siblings/Spouses Aboard

 
 Parch

 有多少父母/子女同船

Number of Parents/Children Aboard

 
 Ticket

 船票號碼?

 
 Fare  船票收費  
 Cabin  所在小屋  
 Embarked

 登船城市

Port of Embarkation

 C Q S 分別代表不同的城市

     

 

最後,在打開看了一下訓練數據之後,第一反應就是使用決策樹來實現預測功能。

 

下一篇文章將講訴我是如何進行 數據預處理 的

發佈了36 篇原創文章 · 獲贊 0 · 訪問量 9360
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章