使用python把csv彙總成excel

最近領導安排讓我每週定時把grafana導出的csv文件進行統計彙總工作,需要處理的csv文件還是蠻多的,況且還要每週重複彙總處理。乾脆寫個腳本,每週執行一遍腳本,既方便還不會出錯。
一、需求分析
1. 原始文件分析

原始文件是多個csv表格,第一列爲時間戳,每10分鐘統計生成一行,其餘列爲ip地址在該時間段內的訪問次數

使用python把csv彙總成excel使用python把csv彙總成excel

2. 處理結果分析

根據要求,統計每個ip地址在當天訪問次數求和,彙總生成新表格,結果如下,並將所有csv文件按照文件名,分別彙總到不同的sheet下

使用python把csv彙總成excel使用python把csv彙總成excel

二、代碼邏輯
1. 流程分析
  • 首先遍歷指定目錄下的.csv文件,提取文件名生成數組
  • 然後使用pandas庫讀取csv文件,提取日期和ip,然後統計每個ip當天訪問次數,生成新的DataFrame
  • 最後使用xlwings庫將pandas處理後的DataFrame數據寫入excel文件,指定文件名作爲sheet名
2. 遍歷指定目錄下.csv文件

主要用到了os模塊中的walk()函數,可以遍歷文件夾下所有的文件名。

def find_csv(path):
        """
        查找目錄下csv文件
        :param path: 查找csv的目錄路徑
        :return: csv文件名list
        """
        csv_file = []
        for root, dirs, files in os.walk(path):
            for file in files:
                if os.path.splitext(file)[1] == '.csv':
                    csv_file.append(os.path.join(root, file))
        return csv_file
3. pandas處理csv文件

pandas是python環境下最有名的數據統計包,對於數據挖掘和數據分析,以及數據清洗等工作,用pandas再合適不過了,官方地址:https://www.pypandas.cn/

def summary_data(file):
        """
        grafana導出的csv文件處理彙總
        :param file: csv文件路徑
        :return: 處理完成後的pandas對象
        """
        # 讀取整個csv文件
        csv_data = pd.read_csv(file, ';')
        # 提取日期
        csv_data["Time"] = csv_data["Time"].map(lambda Time: Time[0:10])
        date = csv_data["Time"].drop_duplicates()
        # 提取IP
        ip_list = csv_data.columns.values[1:]
        # 生成新列表
        result_data = []
        for day in list(date):
            ip_data = []
            for ip in ip_list:
                # 統計指定ip地址在指定日期的數據之和
                ip_sum = csv_data.loc[csv_data['Time'] == day, ip].sum()
                ip_data.append(ip_sum)
                # print("日期:%s ip:%s 總計:%s" % (day, ip, ip_sum))
            result_data.append(ip_data)
        # 生成新的DataFrame
        result_df = pd.DataFrame(result_data, index=list(date), columns=ip_list)
        # 添加行列統計
        result_df['day_sum'] = result_df.apply(lambda x: x.sum(), axis=1)
        result_df.loc['ip_sum'] = result_df.apply(lambda x: x.sum())
        print(file, "處理完畢!")
        return result_df
4. excel數據寫入

pandas的to_excel方法也可以寫入到excel文件,但是如果需要寫入到指定的sheet,就無法滿足需求了,此時就需要用的xlwings或者openpyxl庫,此處使用xlwings,參考文檔:https://www.xlwings.org/pro

def save_excel(data_df, file_name, excel_name):
        """
        生成並寫入新excel文件
        :param data_df: pandas數據對象
        :param file_name: 傳入文件名,作爲生成的sheet名稱
        :param excel_name: 生成excel文件名
        :return: null
        """
        sheet_name = file_name[file_name.rfind('/', 1) + 1:file_name.rfind('.', 1)]
        wb = xlwings.Book(excel_name)
        sheet = wb.sheets.add(name=sheet_name)
        sheet.range("A1").value = data_df
        wb.save()
        wb.close()
        print(sheet_name, "Sheet寫入完畢!")
5. 完整代碼
import os
    import pandas as pd
    import xlwings
    def find_csv(path):
        """
        查找目錄下csv文件
        :param path: 查找csv的目錄路徑
        :return: csv文件名list
        """
        csv_file = []
        for root, dirs, files in os.walk(path):
            for file in files:
                if os.path.splitext(file)[1] == '.csv':
                    csv_file.append(os.path.join(root, file))
        return csv_file
    def summary_data(file):
        """
        grafana導出的csv文件處理彙總
        :param file: csv文件路徑
        :return: 處理完成後的pandas對象
        """
        # 讀取整個csv文件
        csv_data = pd.read_csv(file, ';')
        # 提取日期
        csv_data["Time"] = csv_data["Time"].map(lambda Time: Time[0:10])
        date = csv_data["Time"].drop_duplicates()
        # 提取IP
        ip_list = csv_data.columns.values[1:]
        # 生成新列表
        result_data = []
        for day in list(date):
            ip_data = []
            for ip in ip_list:
                ip_sum = csv_data.loc[csv_data['Time'] == day, ip].sum()
                ip_data.append(ip_sum)
                # print("日期:%s ip:%s 總計:%s" % (day, ip, ip_sum))
            result_data.append(ip_data)
        result_df = pd.DataFrame(result_data, index=list(date), columns=ip_list)
        # 添加行列統計
        result_df['day_sum'] = result_df.apply(lambda x: x.sum(), axis=1)
        result_df.loc['ip_sum'] = result_df.apply(lambda x: x.sum())
        print(file, "處理完畢!")
        return result_df
    def save_excel(data_df, file_name, excel_name):
        """
        生成並寫入新excel文件
        :param data_df: pandas數據對象
        :param file_name: 傳入文件名,作爲生成的sheet名稱
        :param excel_name: 生成excel文件名
        :return: null
        """
        sheet_name = file_name[file_name.rfind('/', 1) + 1:file_name.rfind('.', 1)]
        wb = xlwings.Book(excel_name)
        sheet = wb.sheets.add(name=sheet_name)
        sheet.range("A1").value = data_df
        wb.save()
        wb.close()
        print(sheet_name, "Sheet寫入完畢!")
    if __name__ == '__main__':
        # 原始csv文件存放路徑
        path = './csv'
        # 生成excel文件名
        excel_name = 'cm.xlsx'
        csv_file = find_csv(path)
        # 創建excel文件
        new_excel = pd.DataFrame()
        new_excel.to_excel(excel_name)
        # 處理並寫入excel文件
        for file in csv_file:
            data_df = summary_data(file)
            save_excel(data_df, file, excel_name)
        # 刪除默認Sheet1
        wb = xlwings.Book(excel_name)
        wb.sheets['Sheet1'].delete()
        wb.save()
        wb.close()
        print("數據彙總完畢,生成文件路徑 %s/%s" % (os.getcwd(), excel_name))

本文地址:https://www.linuxprobe.com/python-csv-excel.html

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章