Pandas —— （7）數據分組

原創

2020-06-29 22:49

文章目錄

分組統計 - groupby功能

根據某些條件將數據拆分成組
對每個組獨立應用函數
將結果合併到一個數據結構中

Dataframe在行（axis=0）或列（axis=1）上進行分組，將一個函數應用到各個分組併產生一個新值，然後函數執行結果被合併到最終的結果對象中。

df.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, **kwargs)

一、分組

df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar','foo', 'bar', 'foo', 'foo'],
                   'B' : ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
                   'C' : np.random.randn(8),
                   'D' : np.random.randn(8)})
print(df)
print('------')

print(df.groupby('A'), type(df.groupby('A')))
print('------')
# 直接分組得到一個groupby對象，是一箇中間數據，需要進行計算後才能使用

a = df.groupby('A').mean()
b = df.groupby(['A','B']).mean()
c = df.groupby(['A'])['D'].mean()  # 以A分組，算D的平均值
print(a,type(a),'\n',a.columns)
print(b,type(b),'\n',b.columns)
print(c,type(c))
# 通過分組後的計算，得到一個新的dataframe
# 默認axis = 0，以行來分組
# 可單個或多個（[]）列分組

# 分組 - 可迭代對象

df = pd.DataFrame({'X' : ['A', 'B', 'A', 'B'], 'Y' : [1, 4, 3, 2]})
print(df)
print(df.groupby('X'), type(df.groupby('X')))
print('-----')

print(list(df.groupby('X')), '→ 可迭代對象，直接生成list\n')
print(list(df.groupby('X'))[0], '→ 以元祖形式顯示\n')
for n,g in df.groupby('X'):
    print(n)
    print(g)
    print('###')
print('-----')
# n是組名，g是分組後的Dataframe

print(df.groupby(['X']).get_group('A'),'\n')
print(df.groupby(['X']).get_group('B'),'\n')
print('-----')
# .get_group()提取分組後的組

grouped = df.groupby(['X'])
print(grouped.groups)
print(grouped.groups['A'])  # 也可寫：df.groupby('X').groups['A']
print('-----')
# .groups：將分組後的groups轉爲dict
# 可以字典索引方法來查看groups裏的元素

sz = grouped.size()
print(sz,type(sz))
print('-----')
# .size()：查看分組後的長度

df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar','foo', 'bar', 'foo', 'foo'],
                   'B' : ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
                   'C' : np.random.randn(8),
                   'D' : np.random.randn(8)})
grouped = df.groupby(['A','B']).groups
print(df)
print(grouped)
print(grouped[('foo', 'three')])
# 按照兩個列進行分組

二、函數計算

# 分組計算函數方法

s = pd.Series([1, 2, 3, 10, 20, 30], index = [1, 2, 3, 1, 2, 3])
grouped = s.groupby(level=0)  # 唯一索引用.groupby(level=0)，將同一個index的分爲一組
print(grouped)
print(grouped.first(),'→ first：非NaN的第一個值\n')
print(grouped.last(),'→ last：非NaN的最後一個值\n')
print(grouped.sum(),'→ sum：非NaN的和\n')
print(grouped.mean(),'→ mean：非NaN的平均值\n')
print(grouped.median(),'→ median：非NaN的算術中位數\n')
print(grouped.count(),'→ count：非NaN的值\n')
print(grouped.min(),'→ min、max：非NaN的最小值、最大值\n')
print(grouped.std(),'→ std，var：非NaN的標準差和方差\n')
print(grouped.prod(),'→ prod：非NaN的積\n')

# 多函數計算：agg()

df = pd.DataFrame({'a':[1,1,2,2],
                  'b':np.random.rand(4),
                  'c':np.random.rand(4),
                  'd':np.random.rand(4),})
print(df)
print(df.groupby('a').agg(['mean',np.sum]))
print(df.groupby('a')['b'].agg({'result1':np.mean,
                               'result2':np.sum}))
# 函數寫法可以用str，或者np.方法
# 可以通過list，dict傳入，當用dict時，key名爲columns → 更新pandas後會出現警告
# 儘量用list傳入

打賞

碼字不易，如果對您有幫助，就打賞一下吧O(∩_∩)O

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Pandas —— （7）數據分組

文章目錄

一、分組

二、函數計算

打賞

探究職業發展的關鍵：能力模型解讀

如何在低代碼平臺中引用 JavaScript ？

高效率使用windows

智能決策新時代：可視化大屏是否能夠超越傳統白板？

解密Prompt系列28. LLM Agent之金融領域摸索：FinMem & FinAgent

分享幾個.NET開源的AI和LLM相關項目框架

非線性優化庫學習資料：Ceres Gtsam G2o

無人導航常見座標系

Clion調試ROS

ROS中的珊格地圖——nav_msgs::OccupancyGrid

ROS的多傳感器時間同步機制Time Synchronizer

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結