pandas 滿足多條件的行的某列求和

import numpy as np
import pandas as pd
import csv
import random
# train_msg = pd.read_csv('../../txCTR/train_msg.csv')
# train_msg = train_msg.sort_values(by='user_id', ascending=True)  # 按照特定列排序,如果沒有重新賦值,原數據不會改變
# train_msg_train = train_msg[train_msg.user_id <= 100000]    # 按照單單個條件選擇行
# train_msg_test = train_msg[train_msg.user_id > 100000] 
# train_msg_train.to_csv('../../txCTR/train_msg_train.csv',index=False,sep=',')
# train_msg_test.to_csv('../../txCTR/train_msg_test.csv',index=False,sep=',')

#下面一段代碼
# simulation = pd.read_csv('../../txCTR/test/try/simulation.csv')
# simulation = simulation[(simulation.user_id == 1) & (simulation.industry == 1) & (simulation.category == 2)]  #裏面()不能丟
# print(simulation)
# times = simulation['click_times'].sum()  
# print(times)

# 下面這幾行代碼極其高效地統計了各性別、年齡以及industry上面的分佈,統計各類gender、age、industry組合出現的次數
# train_msg = pd.read_csv('../../txCTR/train_msg.csv')
# # train_msg = train_msg.sort_values(by='user_id', ascending=True)
# count = train_msg.groupby(['gender', 'age', 'industry']).size().reset_index(name="Time")  # 此處如果不爲統計列重命名,
# # 則保存的csv文件只有最後一列,且沒有列標題
# print(count)
# count.to_csv("../../txCTR/statistics/try/industry/gender_age_industry_count.csv", index=False, sep=',')

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章