這次實戰的Kaggle比賽,其實只是其中一個沒有獎金的公益比賽。
主頁: http://www.kaggle.com/c/titanic-gettingStarted
主題是:
Titanic: Machine Learning from Disaster
在比賽之中,官方給出了一些原始的一半的數據作爲比賽用的訓練集與測試集。另外一半作爲官方自己的測試集。最後成績評定也是會使用官方自己留着的一半數據進行評比。
注意: 有一個取巧的方式,那就是去網上去搜索全部原始數據並依此爲基礎提交算法。 好吧,我用的是比這個笨的方法:)
在這裏介紹一下,我比較擅長的是java,並且也希望使用java完成這次比賽。
如果希望使用Python,可以參考:http://triangleinequality.wordpress.com/2013/09/05/a-complete-guide-to-getting-0-79903-in-kaggles-titanic-competition-with-python/
爲了完成這次比賽,首先需要下載官方的數據集。
訓練集用Excel打開之後的樣子:
下面解釋一下訓練集之中的數據:
PassengerId | 旅客ID | 這條數據應該沒啥用 |
Survived | 是否活下來了,1:yes 0:no | 這個應該是對我們很有用的一個數據 |
Pclass | 旅客等級 1 2 3 分別代表不同的等級 | |
Name | 名字 | |
Sex | 性別 | |
Age | 年齡 | |
SibSp |
有多少兄弟姐妹/配偶同船 Number of Siblings/Spouses Aboard |
|
Parch |
有多少父母/子女同船 Number of Parents/Children Aboard |
|
Ticket |
船票號碼? |
|
Fare | 船票收費 | |
Cabin | 所在小屋 | |
Embarked |
登船城市 Port of Embarkation |
C Q S 分別代表不同的城市 |
最後,在打開看了一下訓練數據之後,第一反應就是使用決策樹來實現預測功能。
下一篇文章將講訴我是如何進行 數據預處理 的