【Kaggle入门】Titanic: Machine Learning from Disaster----认识数据


这个系列博客纯粹为了记录一下自己学习kaggle的相关内容,也是跟着别人一步步学习。


都推荐从泰坦尼克之灾和房价预测两个项目入门kaggle。

这里就先学习一下泰坦尼克之灾。

首先在kaggle官网上下载了数据集。

 一个train.csv用于训练,一个test.csv用于验证模型,一个gender_submission.csv是提交格式的示例。

看过一些大神们分享的经验,对数据的认识非常非常重要,关系到后面对数据的处理和特征工程,所以这里先来认识一下titanic的数据。

先读入数据,使用的编辑器是jupyter notebook。

import pandas as pd
import numpy as np
from pandas import Series,DataFrame

data_train = pd.read_csv("data/train.csv")
data_train

 

 

一共12列,891个样本的数据。

每一列代表:

  • PassengerId:乘客ID
  • Survived:是否获救
  • Pclass:乘客的舱位等级
  • Name:乘客姓名
  • Sex:乘客性别
  • Sib Sp:堂兄弟/妹个数
  • Parch:父母与小孩的个数
  • Ticket:船票信息
  • Fare:票价
  • Cabin:客舱
  • Embarked:登船港口

简明的看一下数据的情况。

data_train.info()

可以看到像cabin这一列缺的数据非常多,age这一项也有一些缺失。

下面可以看一下数值型数据的整体情况。

data_train.describe()

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章