1. 引入库:import 库名 import pandas
2. 查看pandas 版本 :pandas.__version__ (这里是双英文下划线)
3. Import pandas as pd
#以后pd就是pandas 库,
如果你想查看版本就可以使用pd.__version__
import pandas
pandas.__version__
#pandas 区分大小写,version 全是小写
执行结果
4. 查看版本的另一种方式:
import pandas as pd
pd.show_versions()
这种方式打印的版本比较详细
使用 Tab键可以出现函数提示,即
输入pd.read 按tab键可以选择函数,补足你记不住函数的劣势
查看函数文档
pd.函数名? 然后按shift+tab
显示如下:
读取本地文件:数据分析有两种重要的数据类型,dataFrames(可以理解为一张sheet,具有各种供你操作属性的sheet,以后会详细的说他的操作) 和Series
这里是读取为dataFrame
import pandas as pd
Oo = pd.read_csv('./data/olympics.csv',skiprows=4 )
#文件放在C盘。用户文件夹下,看home就知道,具体在哪了
#第一个参数是文件的路径 ; skiprow = 4 表示跳过前四行
执行结果如下:
如果只想 只想获得几行数据,可使用函数head()
Oo.head(3)
# oo.head() ,若参数为空
# 默认打印前5行和后5行
Oo.head(3)
#查看数据类型
type(Oo)
执行结果如下:
series 是一个数组,对于一个dataFrame 每一行每一列都是一个 series,是一个1维的有索引的,每一列都是有索引的
#在一个dataFrame中提取series 的方法
Oo.City #city 是列名---这种方式列名没有空格
cit=Oo['City']
打印的就是city列
你可以看到他是有索引的。
下面我们来看看他是不是我们想的类型--series
type(cit)
在dataFrame 中获取子DataFrame:
大于一列数据可以组成一个 DataFrame
#为了确认优先级,这里使用两个中括号
sub = Oo[['City','Sport','Edition']]
sub.head()
来看一下数据类型
sub = Oo[['City','Sport','Edition']]
type(sub)
sub.tail()
#打印sub的后5行,与head 类似
#查看sheet表的行数和列数
Oo.shape
#shape是一个属性,不是函数,其返回值是一个数组(row,column)
Oo.shape[0] #返回行数
Oo.shape[1] #返回列数
# 获取 dataFrame 的信息
Oo.info()