最近領導安排讓我每週定時把grafana導出的csv文件進行統計彙總工作,需要處理的csv文件還是蠻多的,況且還要每週重複彙總處理。乾脆寫個腳本,每週執行一遍腳本,既方便還不會出錯。 |
原始文件是多個csv表格,第一列爲時間戳,每10分鐘統計生成一行,其餘列爲ip地址在該時間段內的訪問次數
根據要求,統計每個ip地址在當天訪問次數求和,彙總生成新表格,結果如下,並將所有csv文件按照文件名,分別彙總到不同的sheet下
- 首先遍歷指定目錄下的.csv文件,提取文件名生成數組
- 然後使用pandas庫讀取csv文件,提取日期和ip,然後統計每個ip當天訪問次數,生成新的DataFrame
- 最後使用xlwings庫將pandas處理後的DataFrame數據寫入excel文件,指定文件名作爲sheet名
主要用到了os模塊中的walk()函數,可以遍歷文件夾下所有的文件名。
def find_csv(path): """ 查找目錄下csv文件 :param path: 查找csv的目錄路徑 :return: csv文件名list """ csv_file = [] for root, dirs, files in os.walk(path): for file in files: if os.path.splitext(file)[1] == '.csv': csv_file.append(os.path.join(root, file)) return csv_file
pandas是python環境下最有名的數據統計包,對於數據挖掘和數據分析,以及數據清洗等工作,用pandas再合適不過了,官方地址:https://www.pypandas.cn/
def summary_data(file): """ grafana導出的csv文件處理彙總 :param file: csv文件路徑 :return: 處理完成後的pandas對象 """ # 讀取整個csv文件 csv_data = pd.read_csv(file, ';') # 提取日期 csv_data["Time"] = csv_data["Time"].map(lambda Time: Time[0:10]) date = csv_data["Time"].drop_duplicates() # 提取IP ip_list = csv_data.columns.values[1:] # 生成新列表 result_data = [] for day in list(date): ip_data = [] for ip in ip_list: # 統計指定ip地址在指定日期的數據之和 ip_sum = csv_data.loc[csv_data['Time'] == day, ip].sum() ip_data.append(ip_sum) # print("日期:%s ip:%s 總計:%s" % (day, ip, ip_sum)) result_data.append(ip_data) # 生成新的DataFrame result_df = pd.DataFrame(result_data, index=list(date), columns=ip_list) # 添加行列統計 result_df['day_sum'] = result_df.apply(lambda x: x.sum(), axis=1) result_df.loc['ip_sum'] = result_df.apply(lambda x: x.sum()) print(file, "處理完畢!") return result_df
pandas的to_excel方法也可以寫入到excel文件,但是如果需要寫入到指定的sheet,就無法滿足需求了,此時就需要用的xlwings或者openpyxl庫,此處使用xlwings,參考文檔:https://www.xlwings.org/pro
def save_excel(data_df, file_name, excel_name): """ 生成並寫入新excel文件 :param data_df: pandas數據對象 :param file_name: 傳入文件名,作爲生成的sheet名稱 :param excel_name: 生成excel文件名 :return: null """ sheet_name = file_name[file_name.rfind('/', 1) + 1:file_name.rfind('.', 1)] wb = xlwings.Book(excel_name) sheet = wb.sheets.add(name=sheet_name) sheet.range("A1").value = data_df wb.save() wb.close() print(sheet_name, "Sheet寫入完畢!")
import os import pandas as pd import xlwings def find_csv(path): """ 查找目錄下csv文件 :param path: 查找csv的目錄路徑 :return: csv文件名list """ csv_file = [] for root, dirs, files in os.walk(path): for file in files: if os.path.splitext(file)[1] == '.csv': csv_file.append(os.path.join(root, file)) return csv_file def summary_data(file): """ grafana導出的csv文件處理彙總 :param file: csv文件路徑 :return: 處理完成後的pandas對象 """ # 讀取整個csv文件 csv_data = pd.read_csv(file, ';') # 提取日期 csv_data["Time"] = csv_data["Time"].map(lambda Time: Time[0:10]) date = csv_data["Time"].drop_duplicates() # 提取IP ip_list = csv_data.columns.values[1:] # 生成新列表 result_data = [] for day in list(date): ip_data = [] for ip in ip_list: ip_sum = csv_data.loc[csv_data['Time'] == day, ip].sum() ip_data.append(ip_sum) # print("日期:%s ip:%s 總計:%s" % (day, ip, ip_sum)) result_data.append(ip_data) result_df = pd.DataFrame(result_data, index=list(date), columns=ip_list) # 添加行列統計 result_df['day_sum'] = result_df.apply(lambda x: x.sum(), axis=1) result_df.loc['ip_sum'] = result_df.apply(lambda x: x.sum()) print(file, "處理完畢!") return result_df def save_excel(data_df, file_name, excel_name): """ 生成並寫入新excel文件 :param data_df: pandas數據對象 :param file_name: 傳入文件名,作爲生成的sheet名稱 :param excel_name: 生成excel文件名 :return: null """ sheet_name = file_name[file_name.rfind('/', 1) + 1:file_name.rfind('.', 1)] wb = xlwings.Book(excel_name) sheet = wb.sheets.add(name=sheet_name) sheet.range("A1").value = data_df wb.save() wb.close() print(sheet_name, "Sheet寫入完畢!") if __name__ == '__main__': # 原始csv文件存放路徑 path = './csv' # 生成excel文件名 excel_name = 'cm.xlsx' csv_file = find_csv(path) # 創建excel文件 new_excel = pd.DataFrame() new_excel.to_excel(excel_name) # 處理並寫入excel文件 for file in csv_file: data_df = summary_data(file) save_excel(data_df, file, excel_name) # 刪除默認Sheet1 wb = xlwings.Book(excel_name) wb.sheets['Sheet1'].delete() wb.save() wb.close() print("數據彙總完畢,生成文件路徑 %s/%s" % (os.getcwd(), excel_name))