这个系列博客纯粹为了记录一下自己学习kaggle的相关内容,也是跟着别人一步步学习。
都推荐从泰坦尼克之灾和房价预测两个项目入门kaggle。
这里就先学习一下泰坦尼克之灾。
首先在kaggle官网上下载了数据集。
一个train.csv用于训练,一个test.csv用于验证模型,一个gender_submission.csv是提交格式的示例。
看过一些大神们分享的经验,对数据的认识非常非常重要,关系到后面对数据的处理和特征工程,所以这里先来认识一下titanic的数据。
先读入数据,使用的编辑器是jupyter notebook。
import pandas as pd
import numpy as np
from pandas import Series,DataFrame
data_train = pd.read_csv("data/train.csv")
data_train
一共12列,891个样本的数据。
每一列代表:
- PassengerId:乘客ID
- Survived:是否获救
- Pclass:乘客的舱位等级
- Name:乘客姓名
- Sex:乘客性别
- Sib Sp:堂兄弟/妹个数
- Parch:父母与小孩的个数
- Ticket:船票信息
- Fare:票价
- Cabin:客舱
- Embarked:登船港口
简明的看一下数据的情况。
data_train.info()
可以看到像cabin这一列缺的数据非常多,age这一项也有一些缺失。
下面可以看一下数值型数据的整体情况。
data_train.describe()