PS(寫到一半發現把博客寫成了在學校的報告的模樣…)
相信看到這篇博客的讀者們應該知道kaggle是什麼,不然也不會看到我這篇博客。
titanic作爲kaggle官方入門題目,其地位堪比a+b problem在各大算法競賽(*cpc)中的地位。
廢話不多說,我們直接開始。
首先,我們可以觀看一下小姐姐的視頻(官方教程),就是下面這個。
或者,我們可以直接開始。
將data下載下來後,閱讀數據說明。(就是下圖這個)
然後,觀察一下提交的格式。(也就是下圖這個)
查看完這些信息後,我們就可以開始做題了。
做題過程分爲三部分:
- 讀取數據,觀察數據的格式。
- 分析數據,對數據進行處理。
- 選擇合適的模型進行預測。
第一部分:讀取數據,觀察數據的格式
通過上圖可以發現,數據中有不同類型的數據。
第二部分:分析數據,對數據進行處理
通過上圖可以發現,訓練集中有結果,也就是Survived列,(下文中稱其爲y值),將y抽取出來作爲結果集。
訓練集中還有不是數值類型的數據,比如Name, Cabin, Ticket, Sex等等 ,需要對他們進行分析,並且處理,簡單舉個例子,對Sex這類數據,用數據標號就可以,對於Name這種數據,可以觀察其稱呼,將稱呼抽取出,或者將名稱長度做成新的屬性。
第三部分:選擇合適的模型進行預測
因爲這個是入門題目,所以我們就用最簡單的方法進行分類,直接用sklearn中的SVM對數據進行fit並預測。
最後提交數據即可。
發現直接隨機的結果有43%的正確率,隨便寫的預測模型有59%的正確率。
以上就是kaggle入門的最簡單的教程。