pandas數據分析讀書筆記(三)

Df.map(),參數裏可以傳入一個函數或者有映射關係的字典型對象

Df.replace(, ),將某個值替換成另外一個值,可以一次性替換多個值,可以每個值都有不同的替換值,傳入的參數也可以是字典

Pd.rename(index = str.title, columns = str.upper),重命名軸索引,這裏的index設置爲原有index首字母爲大寫,columns設置爲原有的全部大寫

Pd.cut(bins, labels),將數據進行劃分,劃分的依據是bins,比如bins如果爲[18, 25, 35, 60, 100],那麼就是前開後閉,labels參數,是用來設置面元名稱的,如果傳入的是面元的數量,那會根據數據的最小值和最大值計算等長分割

Pd.qcut(),可以根據分位數對數據進行劃分,這個就是每個劃分都有相同的頻數,需要傳入的劃分數,也可以支持傳入自定義的分位數,如[0, 0.1, 0.5, 0.9, 1.]

Np.sign(),符號函數

Np.random.permutation(),產生一個表示新順序的整數數組

Df.take(),獲取數據

Df.sample(n = 3, replace = True),選取隨機子集,replace參數,是否有放回的取數據

Pd.get_dummies(df[‘key’],  prefix = ‘key’),將分類變量轉換成“啞變量”,prefix參數爲將DataFrame列加上一個前綴,df_with_dummy = df[[‘data1’]].join(dummies)

Pd.unique(),返回不重複的值

Pd.get_dummies(pd.cut(values, bins)),get_dummies和cut組合操作

‘::’.join(pieces),用兩個冒號把所有元素和連起來

 

Python內置字符串方法:

Count:返回子串在字符串中的出現次數

Endswith、startswith:如果字符串以某個後綴結尾,返回True

Join:將字符串連接其他字符串序列

Index:如果字符串中找到子串,返回第一個字符所在的位置,如果沒有返回-1

Find:返回第一個發現的子串的第一個字符所在的位置,如果沒有返回-1

Rfind:返回最後一個發現的子串的第一個字符所在的位置,沒有返回-1

Repalce:用另一個字符串替代指定子串

Strip,rstrip,lstrip,出去空白符(包括換行)

Split,通過指定的分隔符拆分爲一串子串

lower,upper,分別將字符串轉換爲大寫和小寫

Ljust,rjust,用空格填充字符串的空白

 

Ser.str.contains(‘gmail’),判斷是否含有字符串

 

層次化索引,

Df.unstack(),將層次化索引解開

df.stack(),轉化爲層次化索引

Df.swaplevel(‘key1’, ‘key2’),將這兩個層更換順序

Df.sort_index(level = 1),根據層次1進行排序

Frame.swaplevel(0, 1).sort_index(level = 0)

Frame.sum(level = ‘key2’),根據某層進行彙總統計

 

Df.set_index([‘a’, ‘d’], drop = True),將一個或者多個列轉換爲行索引,並且會創建一個新的DataFrame,drop參數是是否把那些列刪除,False表示不刪除,保留下來

Df.reset_index(),將層次化的索引轉移到列裏面

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章