【Kaggle入門】Titanic: Machine Learning from Disaster----認識數據


這個系列博客純粹爲了記錄一下自己學習kaggle的相關內容,也是跟着別人一步步學習。


都推薦從泰坦尼克之災和房價預測兩個項目入門kaggle。

這裏就先學習一下泰坦尼克之災。

首先在kaggle官網上下載了數據集。

 一個train.csv用於訓練,一個test.csv用於驗證模型,一個gender_submission.csv是提交格式的示例。

看過一些大神們分享的經驗,對數據的認識非常非常重要,關係到後面對數據的處理和特徵工程,所以這裏先來認識一下titanic的數據。

先讀入數據,使用的編輯器是jupyter notebook。

import pandas as pd
import numpy as np
from pandas import Series,DataFrame

data_train = pd.read_csv("data/train.csv")
data_train

 

 

一共12列,891個樣本的數據。

每一列代表:

  • PassengerId:乘客ID
  • Survived:是否獲救
  • Pclass:乘客的艙位等級
  • Name:乘客姓名
  • Sex:乘客性別
  • Sib Sp:堂兄弟/妹個數
  • Parch:父母與小孩的個數
  • Ticket:船票信息
  • Fare:票價
  • Cabin:客艙
  • Embarked:登船港口

簡明的看一下數據的情況。

data_train.info()

可以看到像cabin這一列缺的數據非常多,age這一項也有一些缺失。

下面可以看一下數值型數據的整體情況。

data_train.describe()

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章