【pandas】[4] DataFrame實現sql中row_number() over(partition by column_1 order by column_2)

原創

2020-06-30 22:11

需求：pandas中能不能實現如sql中一樣的分組排序取值

1、構建測試數據

import pandas as pd
df = pd.DataFrame({'k1' : ['a1','a2','a1','b1','b2'],
    'k2' : ['c1','d1','c1','c2','d2'],
    'data' : [10,100,20,30,300]})
print(df)

   k1  k2  data
0  a1  c1    10
1  a2  d1   100
2  a1  c1    20
3  b1  c2    30
4  b2  d2   300

2、使用pandas中的groupby與rank函數實現sql中row_number() over()的功能

df['row_number'] = df.groupby(['k1'])['data'].rank(ascending=False,method='dense')

print(df)

   k1  k2  data  row_number
0  a1  c1    10         2.0
1  a2  d1   100         1.0
2  a1  c1    20         1.0
3  b1  c2    30         1.0
4  b2  d2   300         1.0

可以看出如上df中的k1列的第一行和第三行的'a1'取值是重複的。通過第2步的實現，新增一列row_number列。

至此，完成通過pandas來實現sql中的row_number() over()的功能

封裝成函數

def row_number(df, groupby_col=[], orderby_col='', ascending=True):
    '''

    :param df: 需要處理的數據集；pandas.DataFrame
    :param groupby_col: 需要分組的列；list
    :param orderby_col: 需要分組後，進行排序的列；columns_names
    :param ascending: 排序方式，默認升序
    :return: pandas.Series
    '''

    return df.groupby(groupby_col)[orderby_col].rank(ascending=False,method='dense')

df['row_numbers'] = row_number(df, groupby_col=['k1'], orderby_col='data', ascending=False)

print(df)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

python實現基金定投並可視化結果（及時止損）

1.什麼是指數基金 2.什麼是基金定投 3.本次數據來源 4.作出假設每週定投一次，每次定投500，計算2019年對滬深300指數基金進行定投的收益率每週定投一次，每次定投500，分別計算從2002年開始到2019年，每年定

2020-07-07 18:05:31

Python數據分析與挖掘實戰Chapter7 航空公司客戶價值分析

1.數據探索 #-*- coding: utf-8 -*- #對數據進行基本的探索，返回缺失值以及最大值，最小值 import pandas as pd datafile='G:/學習資料/統計/chapter7/demo/data

weixin_42764993

2020-07-06 13:07:27

【pandas】[9] pandas loc、iloc

創建一個dataframe import numpy as np import pandas as pd #創建一個Dataframe data=pd.DataFrame(np.arange(16).reshape(4,4),index

2020-07-06 09:40:22

【phantomjs】爬蟲安裝使用

phantomJS：的用處可謂非常廣泛諸如網絡監測、網頁截屏、無需瀏覽器的wen測試、頁面訪問自動化等。 phantomjs的下載安裝： http://phantomjs.org/download.html 下載完成後，直接解壓到桌面。

2020-07-04 23:33:26

matplotlib畫圖相關知識

Matplotlib 數據可視化 matplotlib庫的介紹數據可視化第三方庫 matplotlib.pyplot 是繪製各類可視化圖形的命令子庫，相當於快捷方式。 import matplotlib.pyplot as pl

2020-07-04 17:56:51

numpy庫相關知識

文章目錄numpy庫函數速查表numpy庫入門數據維度numpy介紹ndarray對象的屬性ndarray數組的創建和變換ndarray數組的變換ndarray數組的操作ndarray數組的運算numpy的隨機數函數numpy的統

2020-07-04 17:56:51

python學習筆記——numpy

補充tile(val,(x,y))將val內容複製x行，y列。val可以使單個值，也可以是列表shape()查看矩陣或者數組的維數；如果是一個值，返回'()';如果存在x行，y列，返回'(x,y)';含有n個值得一維數組，返回'(n,)'

2020-07-04 02:08:38

使用Python玩轉word

需求：客戶提供Excel表格試題試卷，要求我們隨機生成10份word文檔試卷，試題內容隨機排序。讀取Excel中數據生成word試卷定義生成試卷的總數讀取Excel中數據 # -*- coding: utf-8 -*- """

奥斯维克鸡腿学徒

2020-07-03 15:55:48

利用python進行數據分析學習筆記ch03.1

3.1數據結構和序列元組 tup = 4, 5, 6 tup 組成元素是元組的元組 nested_tup=(4,5,6),(7,8) nested_tup 使用tuple函數將任意序列或迭代器轉換爲元組 tuple([4,0

2020-07-02 02:46:00

Python中玩轉Excel

Python小玩法，實現對Excel的控制導入模塊打開excel表格，讀取數據寫入表格數據插入圖表數據發送郵件數據導入模塊 import xlrd import xlsxwriter import smtplib from em

奥斯维克鸡腿学徒

2020-07-01 22:06:57

【pandas】[5] DataFrame通過drop_duplicates()函數找出重複的行

1、構建測試數據 import pandas as pd df = pd.DataFrame({'k1' : ['a1','a2','a1','b1','b2'], 'k2' : ['c1','d1','c1','c2','d2

2020-06-30 22:11:35

餘弦相似度計算，使用scipy.spatial.distance

餘弦相似度計算，使用scipy.spatial.distance引入模塊pdlist函數使用引入模塊 from scipy.spatial.distance import pdist pdlist函數使用 a=[1,1,1] b

2020-06-29 02:05:10

《利用Python進行數據分析》第7章軸連接與數據轉換

軸連接另一種數據合併運算也被稱作連接（concatenation）、綁定（binding）或堆疊（stacking）。NumPy有一個用於合併原始NumPy數組的concatenation函數。 In [2]: import p

2020-06-28 10:02:28

【python】封裝接口直接利用DataFrame繪製百分比柱狀圖

封裝接口直接利用DataFrame繪製百分比柱狀圖1. 背景前言2. 官方網址示例2.1 matplotlib_percentage_stacked_bar_plot2.2 percent-stacked-barplot2.3 D

2020-06-26 23:08:17

python數據分析（1）——獲取微信好友的統計信息

本文主要是嘗試下一個比較有意思的python模塊：wxpy，導入此模塊之後，可以很方便的來創建一個微信機器人和做一些和微信相關的有意思的分析。 1. wxpy 安裝首先，通過pip方式進行安裝，在命令行模式下輸入： pip in

2020-06-25 04:17:52

24小時熱門文章

最新文章

最新評論文章