【Kaggle從零開始】titanic簡單生存預測

PS(寫到一半發現把博客寫成了在學校的報告的模樣…)

相信看到這篇博客的讀者們應該知道kaggle是什麼,不然也不會看到我這篇博客。

titanic作爲kaggle官方入門題目,其地位堪比a+b problem在各大算法競賽(*cpc)中的地位。
廢話不多說,我們直接開始。

首先,我們可以觀看一下小姐姐的視頻(官方教程),就是下面這個。
在這裏插入圖片描述
或者,我們可以直接開始。

將data下載下來後,閱讀數據說明。(就是下圖這個)
在這裏插入圖片描述
然後,觀察一下提交的格式。(也就是下圖這個)
在這裏插入圖片描述
查看完這些信息後,我們就可以開始做題了。
做題過程分爲三部分:

  1. 讀取數據,觀察數據的格式。
  2. 分析數據,對數據進行處理。
  3. 選擇合適的模型進行預測。

第一部分:讀取數據,觀察數據的格式
在這裏插入圖片描述
通過上圖可以發現,數據中有不同類型的數據。

第二部分:分析數據,對數據進行處理

通過上圖可以發現,訓練集中有結果,也就是Survived列,(下文中稱其爲y值),將y抽取出來作爲結果集。
訓練集中還有不是數值類型的數據,比如Name, Cabin, Ticket, Sex等等 ,需要對他們進行分析,並且處理,簡單舉個例子,對Sex這類數據,用數據標號就可以,對於Name這種數據,可以觀察其稱呼,將稱呼抽取出,或者將名稱長度做成新的屬性。

第三部分:選擇合適的模型進行預測
在這裏插入圖片描述
因爲這個是入門題目,所以我們就用最簡單的方法進行分類,直接用sklearn中的SVM對數據進行fit並預測。

最後提交數據即可。
在這裏插入圖片描述
發現直接隨機的結果有43%的正確率,隨便寫的預測模型有59%的正確率。

以上就是kaggle入門的最簡單的教程。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章