python 学习笔记之 使用pandas 进行简单的数据分析(一)

1.    引入库:import 库名 import pandas
2.    查看pandas 版本 :pandas.__version__   (这里是双英文下划线)
3.    Import  pandas as pd

#以后pd就是pandas 库,

如果你想查看版本就可以使用pd.__version__

import pandas
pandas.__version__
#pandas 区分大小写,version 全是小写

执行结果


4.    查看版本的另一种方式:

import pandas as pd
pd.show_versions()

这种方式打印的版本比较详细

使用 Tab键可以出现函数提示,即 

输入pd.read 按tab键可以选择函数,补足你记不住函数的劣势

查看函数文档

pd.函数名? 然后按shift+tab

显示如下:

读取本地文件:数据分析有两种重要的数据类型,dataFrames(可以理解为一张sheet,具有各种供你操作属性的sheet,以后会详细的说他的操作) 和Series
这里是读取为dataFrame 

import pandas as pd
Oo = pd.read_csv('./data/olympics.csv',skiprows=4 )
#文件放在C盘。用户文件夹下,看home就知道,具体在哪了

#第一个参数是文件的路径 ; skiprow = 4 表示跳过前四行

执行结果如下:

如果只想 只想获得几行数据,可使用函数head()

Oo.head(3)
# oo.head() ,若参数为空
# 默认打印前5行和后5行

 

Oo.head(3)
#查看数据类型
type(Oo)

 执行结果如下:

series 是一个数组,对于一个dataFrame 每一行每一列都是一个 series,是一个1维的有索引的,每一列都是有索引的 

#在一个dataFrame中提取series 的方法
Oo.City   #city 是列名---这种方式列名没有空格
cit=Oo['City']

打印的就是city列

你可以看到他是有索引的。

下面我们来看看他是不是我们想的类型--series

type(cit)

在dataFrame 中获取子DataFrame:

大于一列数据可以组成一个 DataFrame

#为了确认优先级,这里使用两个中括号
sub = Oo[['City','Sport','Edition']]
sub.head()

来看一下数据类型

sub = Oo[['City','Sport','Edition']]
type(sub)

sub.tail()
#打印sub的后5行,与head 类似

 

 

#查看sheet表的行数和列数
Oo.shape
#shape是一个属性,不是函数,其返回值是一个数组(row,column)
Oo.shape[0] #返回行数
Oo.shape[1] #返回列数

# 获取 dataFrame 的信息
Oo.info()

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章