pandas数据分析读书笔记(三)

Df.map(),参数里可以传入一个函数或者有映射关系的字典型对象

Df.replace(, ),将某个值替换成另外一个值,可以一次性替换多个值,可以每个值都有不同的替换值,传入的参数也可以是字典

Pd.rename(index = str.title, columns = str.upper),重命名轴索引,这里的index设置为原有index首字母为大写,columns设置为原有的全部大写

Pd.cut(bins, labels),将数据进行划分,划分的依据是bins,比如bins如果为[18, 25, 35, 60, 100],那么就是前开后闭,labels参数,是用来设置面元名称的,如果传入的是面元的数量,那会根据数据的最小值和最大值计算等长分割

Pd.qcut(),可以根据分位数对数据进行划分,这个就是每个划分都有相同的频数,需要传入的划分数,也可以支持传入自定义的分位数,如[0, 0.1, 0.5, 0.9, 1.]

Np.sign(),符号函数

Np.random.permutation(),产生一个表示新顺序的整数数组

Df.take(),获取数据

Df.sample(n = 3, replace = True),选取随机子集,replace参数,是否有放回的取数据

Pd.get_dummies(df[‘key’],  prefix = ‘key’),将分类变量转换成“哑变量”,prefix参数为将DataFrame列加上一个前缀,df_with_dummy = df[[‘data1’]].join(dummies)

Pd.unique(),返回不重复的值

Pd.get_dummies(pd.cut(values, bins)),get_dummies和cut组合操作

‘::’.join(pieces),用两个冒号把所有元素和连起来

 

Python内置字符串方法:

Count:返回子串在字符串中的出现次数

Endswith、startswith:如果字符串以某个后缀结尾,返回True

Join:将字符串连接其他字符串序列

Index:如果字符串中找到子串,返回第一个字符所在的位置,如果没有返回-1

Find:返回第一个发现的子串的第一个字符所在的位置,如果没有返回-1

Rfind:返回最后一个发现的子串的第一个字符所在的位置,没有返回-1

Repalce:用另一个字符串替代指定子串

Strip,rstrip,lstrip,出去空白符(包括换行)

Split,通过指定的分隔符拆分为一串子串

lower,upper,分别将字符串转换为大写和小写

Ljust,rjust,用空格填充字符串的空白

 

Ser.str.contains(‘gmail’),判断是否含有字符串

 

层次化索引,

Df.unstack(),将层次化索引解开

df.stack(),转化为层次化索引

Df.swaplevel(‘key1’, ‘key2’),将这两个层更换顺序

Df.sort_index(level = 1),根据层次1进行排序

Frame.swaplevel(0, 1).sort_index(level = 0)

Frame.sum(level = ‘key2’),根据某层进行汇总统计

 

Df.set_index([‘a’, ‘d’], drop = True),将一个或者多个列转换为行索引,并且会创建一个新的DataFrame,drop参数是是否把那些列删除,False表示不删除,保留下来

Df.reset_index(),将层次化的索引转移到列里面

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章