關於DataFrame執行groupby的介紹

原創

2020-02-25 10:00

關於DataFrame執行groupby的介紹

pandas提供了一個靈活高效的groupby功能，它使你能以一種自然的方式對數據集進行切片、切塊、摘要等操作。這裏我們主要關注DataFrame執行groupby聚合操作後，如何繼續保持DataFrame對象，讓其不變成Series對象。

如一下實例：
我們輸出的一個DateFrame數據集 df，

  key  value
0   a      1
1   b      2
2   b      3
3   c      4
4   a      5
5   a      6
6   b      7
7   a      8
8   c      9

接下來我們要對key列重複的數據進行合併，一般語句爲：

df1 = df.groupby(('key')).sum()

則有結果如下第一部分，此時不再是DataFrame對象，而變成Series對象，如下第二部分：

df1 = df.groupby(('key')).sum()

     value
key       
a       20
b       12
c       13

df['value']

[('value', key
a    20
b    12
c    13
Name: value, dtype: int64)]

如何繼續保持DataFrame對象，讓其不變成Series對象: 添加as_index=False,指定分組的列不作爲index即可。

 df.groupby(('key'),as_index=False).sum()

  key  value
0   a     20
1   b     12
2   c     13

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Python：計算類別分佈CalculateClassDistribution

import numpy as np import pandas as pd from sklearn import datasets from sklearn.ensemble import RandomForestClassifie

2020-07-08 07:35:14

Python調用matlab 函數

在python中啓動matlab： engine = matlab.engine.start_matlab() 如果輸入的變量X是表格式的數據（n*d），即 ndarray格式，需要進行轉換後再輸入： data_list= matla

2020-07-08 07:35:11

Python：將sklearn自帶數據轉存爲CSV文件

import numpy as np import pandas as pd from sklearn import datasets X,y = datasets.load_breast_cancer(return_X_y=True

2020-07-08 07:35:10

Python:一排三個子圖

import matplotlib.pyplot as plt import numpy as np import pandas as pd path1 = r"D:\ExperimentalData\Jain\jain.csv" pa

2020-07-08 07:35:10

Python : 一排三個子圖（二）

import matplotlib.pyplot as plt import numpy as np import pandas as pd path11 = r"D:\ExperimentalData\Jain\multiCenter

2020-07-08 07:35:08

Python：New Balanced Active Learning Model and Optimization Algorithm--2018IJCAI

參考文獻：New Balanced Active Learning Model and Optimization Algorithm--2018IJCAI 原文代碼找了好久沒有找到，至少Github上沒有找到（2020-06-10之前）

2020-07-08 07:35:07

Python：在python中調用Weka的方法

讓您你們失望了，我啥都沒寫。提供鏈接 https://blog.csdn.net/weixin_30832351/article/details/94889557

2020-07-08 07:35:07

Python：兩個ndarray數據進行矩陣乘法

import numpy as np a = np.array([[1,2,3],[1,2,3],[1,2,3]]) # print(a) # print(a ** 2) c = np.array([1,2,3]) b = np.arr

2020-07-08 07:35:07

Python: numpy.random的使用

import numpy as np print(np.random.random()) 0.7714546557122427 輸出單個0-1之間的隨機數 import numpy as np print(np.random.r

2020-07-08 07:35:07

Python：相對標準的DPC

import numpy as np import pandas as pd import copy import matplotlib.pyplot as plt from sklearn import datasets from s

2020-07-08 07:35:07

Python中的kwargs

Python的函數中有幾種參數，一個是基於位置的參數，一個是基於變量名賦值的參數基於位置的參數被*args存入元組中，基於變量名賦值的參數被**kwargs放入一個字典中如： def foo(*args, **kwargs):

清风乐逍遥

2020-07-07 00:00:31

聊聊MySQL是如何處理排序的

本文分享自華爲雲社區《MySQL怎樣處理排序⭐️如何優化需要排序的查詢？》，作者：菜菜的後端私房菜。前言在MySQL的查詢中常常會用到 order by 和 group by 這兩個關鍵字它們的相同點是都會對字段進行排序，那查詢語句

2024-05-16 10:58:48

ClickHouse 數據一致性保障的常用解決方案

在ClickHouse中，數據一致性是通過Mergetree引擎實現的。Mergetree引擎採用最終一致性的解決方案，即系統保證數據在最終狀態上是一致的，但在數據寫入過程中可能會存在短暫的不一致狀態。爲了保障數據一致性，ClickHous

2024-04-03 23:23:44

mysql常見問題-索引-未完

創建索引的原則：表和表的關聯字段；在需要根據範圍進行搜索的字段上創建索引；在排序的字段上創建索引；在WHERE條件字段上面創建索引；在group by分組字段上面創建索引。索引失效：

2024-03-08 00:44:04

財務數據處理問題及解決方案分享

一、平臺介紹財務自營計費主要承接京東自營數據在整個供應鏈中由C端轉B端的功能實現，在整個供應鏈中屬於靠後的階段了，系統主要功能是計費和向B端的彙總。二、問題描述近年來自營計費數據量大增，有百億+的數據量，一天中彙總佔據了一半的數據

2024-02-04 12:03:52

24小時熱門文章

最新文章

最新評論文章