pandas数据分析读书笔记(一)

Series对象,如何生成Series对象。

Datadf对象,如何生成Datadf

df.Head()函数,df.tail()函数,df.loc()函数(通过index位置获取数据)

Del df[‘eastern’],del函数用来删除某列.

df.T,转置函数

df.values,返回Datadf的数据

df.index,返回Datadf的索引

df.reindex(),用于修改索引

df.drop(axis = 0),用于删除某行或者某列,默认的参数是axis = 0,默认删除行,当axis=1时,删除列,或者axis = ‘columns’也可以。这个函数是返回一个删除的对象,不会修改原有的数据,当传入参数inplace = True时,则原地修改对象,不会返回新的对象。

df.loc(),使用index标签获取数据

df.iloc(),通过整数索引获取数据

Np.abs(df),可以将numpy的函数用于操作pandas对象

df.apply(f),函数f,作用于df的每一列上

df.applymap(f),函数f,作用于df的每一个元素上

df.sort_index(axis = 0, ascending = True),对某个轴上的索引进行排序,默认为axis = 0,即行缩影,可以设置为axis = 1,即对列索引进行排序。Ascending默认为True的,即升序排列,也可以设置ascending = False,即降序排列

df.sort_values(),对值进行排列,缺失值会放在Series的末尾,by参数,是根据一个或多个列中的值进行排序,如果是要根据多个列进行排序,需要传入列表

df.index.is_unique,这是个属性,可以看索引的值是否是唯一的

df.sum(axis = 0),该方法返回一个含有列的和的Series,默认为axis = 0,计算每列的和,也可以将参数修改为axis = 1,会按照行进行求和运算

df.mean(axis = 0’, skipna =True),返回一个含有列的平均值的Series,跳过空值。

df.idmax(),返回每列最大值的索引

df.idmin(),返回每列最小值的索引

df.cumsum(),每列累计和

df.describe(),一次性产生多个汇总统计,包括总数,平均值,最小值,最大值,分位数等等

另外还有:count()、max()、min()、argmax()/返回最大值的整数索引、argmin()/返回最小值的整数索引、quantile/计算分位数0到1、sum、mean、median、mad、var、std、skew、kuit、cumsum、cummin、cummax/样本值的累计最大值和最小值、cumprod累计积、pct_change计算百分比变化(计算股票收益率)

Ser1.corr(Ser2),计算两个Series重叠的,非NA的,按索引对齐的相关系统

Df.corr(),返回这个dataframe的相关系统矩阵

Df.cov(),返回这个dataframe的协方差矩阵

Df.corrwith(),当传入一个Series时,则会计算dataframe的所有列与这个Series的相关系数,当传入的是一个DataFrame时,则会按照列名匹配然后计算相关系数。

Ser.unique(),返回Series中的唯一值数组

Ser.value_counts(),用于计算一个Series中各值出现的频率

pd.value_counts(Ser.values),这个value_counts还是一个顶级的方法

Ser.isin(),用于判断Series中的值是否在一个列表中

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章