pandas庫常用函數介紹

pandas庫常用函數

本文章轉載於 https://blog.csdn.net/u011995719/article/details/72598935

Pandas庫圍繞Series類型和DataFrame類型這兩種數據結構,提供了一種高效便捷的數據處理方式。

Series類型介紹

Series類型是一組數據及與之相關的數據索引組成
自動索引:
a = pd.Series([9, 8, 7, 6]) 構造一個Series對象a
這裏寫圖片描述
自定義索引:
a = pd.Series([9, 8, 7, 6], index = [‘a’, ‘b’, ‘c’, ‘d’])
這裏寫圖片描述

Series創建方式

(1)從標量值創建
s = pd.Series(25, index = [‘a’, ‘b’, ‘c’])
這裏寫圖片描述
(2)從字典類型創建
鍵值對中的鍵是索引 ,d = pd.Series({‘a’:9, ‘b’:8, ‘c’:7}) 這裏寫圖片描述 這裏寫圖片描述
(3)從ndarray類型創建
這裏寫圖片描述 這裏寫圖片描述

Series類型基本操作

(1).index獲得索引,.values獲得數據
這裏寫圖片描述
這裏寫圖片描述
(2)in : 判斷“鍵”是否在字段中 返回 True / False
          .get(‘f’, 100) 獲取b的索引爲‘f’的數據,若不存在,返回100
這裏寫圖片描述
(3)Series類型對齊操作
索引一致的,對應元素相加,無一致的索引,數據爲NaN
這裏寫圖片描述
(4)Series類型的name屬性
這裏寫圖片描述

DataFrame類型介紹

DataFrame是表格型類,可理解爲二維代表籤數據類型, 其由共用相同索引的一組列組成: index(axis=0,即縱向),colum(axis=1,即橫向)

DataFrame創建方式

(1)從ndarray創建
d= pd.DataFrame(np.arange(10).reshape(2,5))
這裏寫圖片描述
(2)從字典創建
字典中的鍵,默認爲列索引;
只選取字典中有的索引所對應的值,沒有的自動補齊這裏寫圖片描述
(3)從列表中創建
d[‘one’] 獲得新的DataFrame類型
d.ix[‘b’] 獲得d的 b這一列
d[‘one’][‘b’] 獲得 數據 2 注意:必須先[‘one’]後[‘b’],先列後行
這裏寫圖片描述

pandas數據類型常見操作

(1)
reindex(index=None, columns=None,…)方法 可改變或重排Series和DataFrame索引
reindex(index=None, columns=None,…)
index, colums 新的行列自定義索引
fill_value 在重新索引,用於填充缺失位置的值
method 填充方法,ffill當前值向前填充, bfill向後填充
limit 最大填充量
copy 默認爲True,生成新的對象,False時,新舊相等,但不復制
例如:
d.reindex(index = [‘d’, ‘c’, ‘b’, ‘a’ ])
d.reindex(colums = [‘two’, ‘one’])這裏寫圖片描述
(2)數據排序
.sort_index()方法在指定軸上根據索引進行排序,默認升序。
.sort_index(axis=0,ascending = True) ascending是指遞增排序
.sort_values()方法在指定軸上根據數值進行排序,默認升序。
Serier.sort_values(axis= 0, ascending=True)
DataFrame.sort_values(by, axis = 0, ascending = True)
by: 只對axis軸上的某個 索引 或 索引列表 進行排序
這裏寫圖片描述
NaN空值,保持在排序末尾

索引類型常見操作

.append(idx) 連接另外一個Index對象,產生新的Index對象
.diff(idx) 計算差集,產生新的Index對象
.intersection(idx) 計算交集,產生新對象
.union(idx) 計算並集
.delete(loc) 刪除loc位置處的元素
.insert(loc, e) 在loc位置增加一各元素e
.drop()可刪除Series或DataFrame制定的行或列

例如:
這裏寫圖片描述
d.drop([‘c1’, ‘c2’]) # 此處生成新對象,原對象d不改變
d.drop(‘one’,axis=1) 要刪除列,需要加上axis = 1.

pandas統計分析函數

.sum() 計算數據總和,按0軸計算
.count() 非NaN值的數量
.mean() .median() 計算算術平均值(即數組元素之和除以元素數量)、算術中位數
.var() .var() 計算方差、標準差
.min() .max 計算最小、大值
.argmin() .argmax() 計算最大、小值所在位置的索引(針對自動索引的)(適用於Series 類型:)
.idxmin() .idxmax() 計算最大、小值所在位置的索引(針對自定義索引的)(適用於Series類型:)
.describe() 針對0軸(各列)的統計彙總 這裏寫圖片描述 這裏寫圖片描述.cov() 計算協方差矩陣
.corr() 計算相關係數矩陣
這裏寫圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章