Df.map(),參數裏可以傳入一個函數或者有映射關係的字典型對象
Df.replace(, ),將某個值替換成另外一個值,可以一次性替換多個值,可以每個值都有不同的替換值,傳入的參數也可以是字典
Pd.rename(index = str.title, columns = str.upper),重命名軸索引,這裏的index設置爲原有index首字母爲大寫,columns設置爲原有的全部大寫
Pd.cut(bins, labels),將數據進行劃分,劃分的依據是bins,比如bins如果爲[18, 25, 35, 60, 100],那麼就是前開後閉,labels參數,是用來設置面元名稱的,如果傳入的是面元的數量,那會根據數據的最小值和最大值計算等長分割
Pd.qcut(),可以根據分位數對數據進行劃分,這個就是每個劃分都有相同的頻數,需要傳入的劃分數,也可以支持傳入自定義的分位數,如[0, 0.1, 0.5, 0.9, 1.]
Np.sign(),符號函數
Np.random.permutation(),產生一個表示新順序的整數數組
Df.take(),獲取數據
Df.sample(n = 3, replace = True),選取隨機子集,replace參數,是否有放回的取數據
Pd.get_dummies(df[‘key’], prefix = ‘key’),將分類變量轉換成“啞變量”,prefix參數爲將DataFrame列加上一個前綴,df_with_dummy = df[[‘data1’]].join(dummies)
Pd.unique(),返回不重複的值
Pd.get_dummies(pd.cut(values, bins)),get_dummies和cut組合操作
‘::’.join(pieces),用兩個冒號把所有元素和連起來
Python內置字符串方法:
Count:返回子串在字符串中的出現次數
Endswith、startswith:如果字符串以某個後綴結尾,返回True
Join:將字符串連接其他字符串序列
Index:如果字符串中找到子串,返回第一個字符所在的位置,如果沒有返回-1
Find:返回第一個發現的子串的第一個字符所在的位置,如果沒有返回-1
Rfind:返回最後一個發現的子串的第一個字符所在的位置,沒有返回-1
Repalce:用另一個字符串替代指定子串
Strip,rstrip,lstrip,出去空白符(包括換行)
Split,通過指定的分隔符拆分爲一串子串
lower,upper,分別將字符串轉換爲大寫和小寫
Ljust,rjust,用空格填充字符串的空白
Ser.str.contains(‘gmail’),判斷是否含有字符串
層次化索引,
Df.unstack(),將層次化索引解開
df.stack(),轉化爲層次化索引
Df.swaplevel(‘key1’, ‘key2’),將這兩個層更換順序
Df.sort_index(level = 1),根據層次1進行排序
Frame.swaplevel(0, 1).sort_index(level = 0)
Frame.sum(level = ‘key2’),根據某層進行彙總統計
Df.set_index([‘a’, ‘d’], drop = True),將一個或者多個列轉換爲行索引,並且會創建一個新的DataFrame,drop參數是是否把那些列刪除,False表示不刪除,保留下來
Df.reset_index(),將層次化的索引轉移到列裏面