【Kaggle入門】Titanic: Machine Learning from Disaster----認識數據

原創

2020-05-11 10:03

這個系列博客純粹爲了記錄一下自己學習kaggle的相關內容，也是跟着別人一步步學習。

都推薦從泰坦尼克之災和房價預測兩個項目入門kaggle。

這裏就先學習一下泰坦尼克之災。

首先在kaggle官網上下載了數據集。

一個train.csv用於訓練，一個test.csv用於驗證模型，一個gender_submission.csv是提交格式的示例。

看過一些大神們分享的經驗，對數據的認識非常非常重要，關係到後面對數據的處理和特徵工程，所以這裏先來認識一下titanic的數據。

先讀入數據，使用的編輯器是jupyter notebook。

import pandas as pd
import numpy as np
from pandas import Series,DataFrame

data_train = pd.read_csv("data/train.csv")
data_train

一共12列，891個樣本的數據。

每一列代表：

簡明的看一下數據的情況。

data_train.info()

可以看到像cabin這一列缺的數據非常多，age這一項也有一些缺失。

下面可以看一下數值型數據的整體情況。

data_train.describe()

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.