原创 [Kaggle實戰] Titanic 逃生預測 (1) - 項目起步

這次實戰的Kaggle比賽,其實只是其中一個沒有獎金的公益比賽。 主頁: http://www.kaggle.com/c/titanic-gettingStarted 主題是: Titanic: Machine Learning fro

原创 [Kaggle實戰] Titanic 逃生預測 (2) - 數據預處理

上一篇文章簡要介紹了比賽的主題與將會使用到的數據集。   這一篇文章的主要任務是完成數據挖掘的第一步: 數據清理   完成數據清理的第一步,就是先把數據讀到內存之中。在這裏,我使用的是OpenCsv. 可以到這裏下載。 OpenCSV的

原创 [Kaggle實戰] Titanic 逃生預測 (3) - Age離散化

昨天的文章大致構建了一個data matrix, 並進行了數據清理。有一個遺留問題就是,如何將連續的Age屬性離散化?   對於連續屬性離散化,可以參考《數據挖掘導論》 2.3.6小節。 首先,我們試着將數據圖形化,看看是否有明顯的間隔