【Kaggle入门】Titanic: Machine Learning from Disaster----认识数据

原創

2020-05-11 10:03

这个系列博客纯粹为了记录一下自己学习kaggle的相关内容，也是跟着别人一步步学习。

都推荐从泰坦尼克之灾和房价预测两个项目入门kaggle。

这里就先学习一下泰坦尼克之灾。

首先在kaggle官网上下载了数据集。

一个train.csv用于训练，一个test.csv用于验证模型，一个gender_submission.csv是提交格式的示例。

看过一些大神们分享的经验，对数据的认识非常非常重要，关系到后面对数据的处理和特征工程，所以这里先来认识一下titanic的数据。

先读入数据，使用的编辑器是jupyter notebook。

import pandas as pd
import numpy as np
from pandas import Series,DataFrame

data_train = pd.read_csv("data/train.csv")
data_train

一共12列，891个样本的数据。

每一列代表：

PassengerId：乘客ID
Survived：是否获救
Pclass：乘客的舱位等级
Name：乘客姓名
Sex：乘客性别
Sib Sp：堂兄弟/妹个数
Parch：父母与小孩的个数
Ticket：船票信息
Fare：票价
Cabin：客舱
Embarked：登船港口

简明的看一下数据的情况。

data_train.info()

可以看到像cabin这一列缺的数据非常多，age这一项也有一些缺失。

下面可以看一下数值型数据的整体情况。

data_train.describe()

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Python爬虫技术与数据可视化：Numpy、pandas、Matplotlib的黄金组合

前言在當今信息爆炸的時代，數據已成爲企業決策和發展的關鍵。而互聯網作爲信息的主要來源，網頁中蘊含着大量的數據等待被挖掘。Python爬蟲技術和數據可視化工具的結合，爲我們提供了一個強大的工具箱，可以幫助我們從網絡中抓取數據，並將其可視

2024-04-29 23:26:28

五一假期畅游指南：Python技术构建的热门景点分析系统解读

導言五一假期即將到來，作爲一名熱愛旅遊的技術達人，我總是希望能夠通過技術手段更好地規劃我的旅行路線。在這篇文章中，我將向大家介紹一款基於Python技術的熱門景點分析系統，幫助您在五一假期中游玩得更加盡興！ 1. 系統概述熱門景點

2024-04-16 23:25:46

微博数据可视化分析：利用Python构建信息图表展示话题热度

1. 引言隨着社交媒體的迅速發展，微博已成爲人們交流觀點、表達情感的重要平臺之一。微博評論數據蘊含着豐富的信息，通過對這些數據進行分析和可視化，我們可以深入瞭解用戶對特定話題的關注程度和情感傾向。本文將介紹如何利用Python進行微博

2024-02-20 00:22:15

安装笔记本应用商店的pycharm，再安排pandas等模块，说是没有打包工具?

大家好，我是Python進階者。一、前言前幾天在Python最強王者交流羣【斌】問了一個Python庫安裝的問題。求教大佬：華爲筆記本，麒麟系統，安裝筆記本應用商店的pycharm，再安排pandas等模塊，說是沒有打包工具，再安裝

2024-05-25 10:02:28

从静态到动态化，Python数据可视化中的Matplotlib和Seaborn

本文分享自華爲雲社區《Python數據可視化大揭祕：Matplotlib和Seaborn高效應用指南》，作者：檸檬味擁抱。安裝Matplotlib和Seaborn 首先，確保你已經安裝了Matplotlib和Seaborn庫。如果沒有

2024-03-25 11:01:41

05-快速理解SparkSQL的DataSet

1 定義一個數據集是分佈式的數據集合。Spark 1.6增加新接口Dataset，提供 RDD的優點：強類型、能夠使用強大lambda函數 Spark SQL優化執行引擎的優點可從JVM對象構造Dataset，然後函數式轉換（map

2024-03-25 02:48:38

大模型推理框架：从理论到实践的全面解析

在數據驅動的時代，深度學習技術已經滲透到各個行業，從圖像識別到自然語言處理，從推薦系統到智能客服，其應用無處不在。然而，深度學習模型的訓練和推理過程往往涉及大量數據和複雜計算，傳統的計算框架難以滿足需求。因此，大模型推理框架應運而生，成爲解

2024-03-23 00:31:01

盘点一个Pandas处理json数据的实战案例

大家好，我是Python進階者。一、前言前幾天在Python最強王者交流羣【黑科技·鼓包】問了一個Pandas處理json數據的問題。問題如下：大佬們請教下一個很簡單的問題，因爲我半瓢水也不知道該怎麼解決，問AI好像也寫不好描述，麻煩幫

2024-03-06 22:16:06

AppBuilder低代码体验：构建雅思大作文组件

Ai technology 前言 AppBuilder上線了低代碼製作組件功能，可以通過工作流的方式構建自定義組件，完成簡單Agent無法完成的複雜功能，使得生成的文本更加定製化，

2024-05-16 00:15:54

anaconda和pycharm区别是什么?Python学习!

　　學習Python的人，肯定聽說過anaconda和pycharm，但是很多人傻傻分不清楚它們之間有什麼區別，今天小編帶大家好好了解一下。　　Anaconda：　　是一個Python發行版，包含了conda、Python等180多個

2024-05-14 01:47:30

为程序员和新手准备的 8 大 Python 工具

Python 是一種開源編程語言，用於 Web 編程、數據科學、人工智能和許多科學應用。學習 Python 使程序員能夠專注於解決問題，而不是專注於語法，其豐富的庫賦予它完成偉大任務所需的力量。 1) IDLE 安裝 Python 時

2024-05-14 01:06:43

从原始边列表到邻接矩阵Python实现图数据处理的完整指南

本文分享自華爲雲社區《從原始邊列表到鄰接矩陣Python實現圖數據處理的完整指南》，作者：檸檬味擁抱。在圖論和網絡分析中，圖是一種非常重要的數據結構，它由節點（或頂點）和連接這些節點的邊組成。在Python中，我們可以使用鄰接矩陣來表示

2024-04-30 10:34:05

faceswap安装

https://github.com/deepfakes/faceswap 問題；No module named 'numpy' 解決辦法：pip install numpy No module named 'tqdm' pip inst

2024-04-13 00:40:47

深入学习NumPy库在数据分析中的应用场景

在數據科學與機器學習領域，NumPy（Numerical Python）是一個經常被提及的重要工具。它是Python語言中一個非常強大的庫，提供了高性能的多維數組對象以及用於處理這些數組的工具。NumPy不僅僅是一個用於數值計算的庫，它還

2024-03-02 00:30:28

动手实践丨轻量级目标检测与分割算法开发和部署(RK3568)

本文分享自華爲雲社區《自動駕駛(AIOT) - 輕量級目標檢測與分割算法開發和部署(RK3568)【玩轉華爲雲】》，作者：HouYanSong。本文將在ModelArts平臺上開發輕量級目標檢測與分割算法，並使用ModelBox框架在RK

2024-02-26 23:10:28

24小時熱門文章

Python 潮流周刊#52：Python 处理 Excel 的资源

最新文章

最新評論文章