python 学习笔记之使用pandas 进行简单的数据分析（一）

原創

2018-12-01 00:12

1.   引入库：import 库名 import pandas
2.   查看pandas 版本：pandas.__version__   (这里是双英文下划线)
3.   Import pandas as pd

#以后pd就是pandas 库，

如果你想查看版本就可以使用pd.__version__

import pandas
pandas.__version__
#pandas 区分大小写，version 全是小写

执行结果

4. 查看版本的另一种方式：

import pandas as pd
pd.show_versions()

这种方式打印的版本比较详细

使用 Tab键可以出现函数提示，即

输入pd.read 按tab键可以选择函数，补足你记不住函数的劣势

查看函数文档

pd.函数名? 然后按shift+tab

显示如下：

读取本地文件:数据分析有两种重要的数据类型，dataFrames(可以理解为一张sheet，具有各种供你操作属性的sheet，以后会详细的说他的操作) 和Series
这里是读取为dataFrame

import pandas as pd
Oo = pd.read_csv('./data/olympics.csv',skiprows=4 )
#文件放在C盘。用户文件夹下，看home就知道，具体在哪了

#第一个参数是文件的路径 ; skiprow = 4 表示跳过前四行

执行结果如下：

如果只想只想获得几行数据，可使用函数head()

Oo.head(3)
# oo.head() ,若参数为空
# 默认打印前5行和后5行

Oo.head(3)
#查看数据类型
type(Oo)

执行结果如下：

series 是一个数组，对于一个dataFrame 每一行每一列都是一个 series，是一个1维的有索引的，每一列都是有索引的

#在一个dataFrame中提取series 的方法
Oo.City   #city 是列名---这种方式列名没有空格
cit=Oo['City']

打印的就是city列

你可以看到他是有索引的。

下面我们来看看他是不是我们想的类型--series

type(cit)

在dataFrame 中获取子DataFrame：

大于一列数据可以组成一个 DataFrame

#为了确认优先级，这里使用两个中括号
sub = Oo[['City','Sport','Edition']]
sub.head()

来看一下数据类型

sub = Oo[['City','Sport','Edition']]
type(sub)

sub.tail()
#打印sub的后5行，与head 类似

#查看sheet表的行数和列数
Oo.shape
#shape是一个属性，不是函数，其返回值是一个数组(row,column)
Oo.shape[0] #返回行数
Oo.shape[1] #返回列数

# 获取 dataFrame 的信息
Oo.info()

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.