創建子表並快速測試唯一性的封裝(自定義)函數

原創

2020-06-30 13:16

從一個大數據中創建子表並快速測試唯一性的輔助函數

player_index = 'playerShort'
player_cols = ['birthday', 'height', 'weight', 'position', 'photoID', 'rater1', 'rater2']

def get_subgroup(dataframe, g_index, g_columns):
    g = dataframe.groupby(g_index).agg({col:'nunique' for col in g_columns})
    if g[g > 1].dropna().shape[0] != 0:
        print("Warning: you probably assumed this had all unique values but it doesn't.")
    return dataframe.groupby(g_index).agg({col:'max' for col in g_columns})

players = get_subgroup(df, player_index, player_cols)
players.head()

保存數據, 並檢測是否一致:

def save_subgroup(dataframe, g_index, subgroup_name, prefix = 'raw_'):
    save_subgroup_filename = ''.join([prefix, subgroup_name, '.csv.gz'])
    dataframe.to_csv(save_subgroup_filename, compression='gzip', encoding = 'UTF-8')
    test_df = pd.read_csv(save_subgroup_filename, compression='gzip', index_col = g_index, encoding='UTF-8')
    if dataframe.equals(test_df):
        print('Test-passed: we recover the equivalent subgroup dataframe.')
    else:
        print('Warning -- equivalence test!!! Double-check.')
        
save_subgroup(players, player_index, 'players')

Test-passed: we recover the equivalent subgroup dataframe.

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

樹上剖分

————————————————18.4.18更新有時我們會遇到這樣的問題：在一棵樹上，每次詢問兩點間路徑上的和或者是最值。但我們用搜索時，時間就會到O（n），這樣根本就完不成算法。但樹上剖分就可以縮短修改的時間。樹上剖分的算法簡介我們定

蒟蒻午时已到

2020-07-08 11:59:23

HDU 2888 二維RMQ 模板

#include <iostream> #include <cstdio> #include <cstring> #include <vector> #include <cmath> using namespace std ; cons

2020-07-08 10:23:09

模板與標準模板庫

模板參數模板參數分爲類型參數和非類型參數。類型參數代表的是一個基本類型或用戶自定義的類型，而非類型參數代表一個常量。每個參數前面都必須有關鍵字typename或者class，形式爲<typename typeparameter>或

chijianxingfeng

2020-07-08 03:15:41

最大匹配，花樹開花算法

最初圖是用的數組線性表存的，但是TLE了，後來直接用矩陣存的然後就AC了，表面上看用矩陣存似乎花的時間多，因爲訪問了一些不存在的邊，但是用臨接矩陣存有重邊的情況就很不好，所以還是用矩陣吧！ class match{ public:

2020-07-07 06:04:52

joomla模板下載地址彙總

chinaz.com WebTemplets Joomlatemplatemonster Template Joomlaforum.ziy.cc Joomla/f37/joomla24maycode joomla templatetem

2020-07-07 00:49:43

支配樹 | 模板

文章目錄題目實現思路代碼題目【模板】支配樹實現思路 DFS 一次得到 Dfn 和 Tid 數組；從 Dfn 大的點開始枚舉點 uuu：枚舉 uuu 的反向鄰接點 vvv，則 vvv 所在的並查集的最小 SDom 可以

2020-07-06 18:55:54

Dijkstra（堆優化）

Dijkstra 算法（模板）【堆優化】傳送門： Dijkstra：建議先掌握原始版本基本思路：用一個優先隊列，priority queue來保存點到點之間的距離，優先隊列自動把隊列裏的數據排序（這裏需要手動寫一個bool型函數來定

2020-07-06 18:39:07

快速排序求第K小

嗯。。就是在快排的時候不去管另外一邊然後沒什麼了。。用的是算法導論上的代碼。。 var a:Array[0..10000000] of longint; step,n,i,j,k:longint; procedure swap(va

2020-07-06 07:48:45

（擴展）中國剩餘定理（模板）

中國剩餘定理：猜數字求解下列同餘方程組（模數互質） {x≡a1 ( mod m1 )x≡a2 ( mod m2 )⋮x≡an ( mod mn)\begin{cases} x \equiv a_1 \ (\ mod \ m_1\

2020-07-06 03:44:13

【雙向BFS模板】

文章目錄原題鏈接：原題鏈接： https://ac.nowcoder.com/acm/contest/549/G 是個裸的雙向BFS的題，看到一份比較好的代碼，我以前好像都是寫的兩個BFS的，而他這個寫在一起了，而且更好得體現了

2020-07-05 22:29:11

文章標題 POJ 2104: K-th Number（主席樹）

題目傳送門思路參考自http://www.cnblogs.com/zyf0163/p/4749042.html 代碼： // //http://www.cnblogs.com/zyf0163/p/4749042.html /

2020-07-05 17:13:23

文章標題高斯消元解方程組（模板）

參考自http://www.cnblogs.com/kuangbin/archive/2012/09/01/2667044.html #include <iostream> #include <cstdio> #include <

2020-07-05 16:33:04

文章標題 HDU 1533 ： Going Home （最小費用最大流）

Going Home 題目鏈接題意：在n*m的矩形上，有房子和人，人到達房子的話費是曼哈頓距離，然後每個人走到一個房子，求最小的費用。分析：最小費用最大流的模板代碼： #include <iostream> #in

2020-07-05 16:33:04

文章標題 HDU 4280 ：Island Transport （最大流--ISAP）

題目鏈接一開始用的dinic 發現T了，然後換了個IS AP的模板代碼： #include <iostream> #include <cstdio> #include <cstring> #include <string> #

2020-07-05 16:33:04

最小費用

#define INF 1e9 #define N 1000 #define M 1000100 struct Edge { int to,next,cost,flow; }edge[M]; int head[N],ip; int

2020-07-05 03:45:46

24小時熱門文章

最新文章

最新評論文章