使用python把csv彙總成excel

最近領導安排讓我每週定時把grafana導出的csv文件進行統計彙總工作，需要處理的csv文件還是蠻多的，況且還要每週重複彙總處理。乾脆寫個腳本，每週執行一遍腳本，既方便還不會出錯。

一、需求分析

1. 原始文件分析

原始文件是多個csv表格，第一列爲時間戳，每10分鐘統計生成一行，其餘列爲ip地址在該時間段內的訪問次數

2. 處理結果分析

根據要求，統計每個ip地址在當天訪問次數求和，彙總生成新表格，結果如下，並將所有csv文件按照文件名，分別彙總到不同的sheet下

二、代碼邏輯

1. 流程分析

首先遍歷指定目錄下的.csv文件，提取文件名生成數組
然後使用pandas庫讀取csv文件，提取日期和ip，然後統計每個ip當天訪問次數，生成新的DataFrame
最後使用xlwings庫將pandas處理後的DataFrame數據寫入excel文件，指定文件名作爲sheet名

2. 遍歷指定目錄下.csv文件

主要用到了os模塊中的walk()函數，可以遍歷文件夾下所有的文件名。

def find_csv(path):
        """
        查找目錄下csv文件
        :param path: 查找csv的目錄路徑
        :return: csv文件名list
        """
        csv_file = []
        for root, dirs, files in os.walk(path):
            for file in files:
                if os.path.splitext(file)[1] == '.csv':
                    csv_file.append(os.path.join(root, file))
        return csv_file

3. pandas處理csv文件

pandas是python環境下最有名的數據統計包，對於數據挖掘和數據分析，以及數據清洗等工作，用pandas再合適不過了，官方地址：https://www.pypandas.cn/

def summary_data(file):
        """
        grafana導出的csv文件處理彙總
        :param file: csv文件路徑
        :return: 處理完成後的pandas對象
        """
        # 讀取整個csv文件
        csv_data = pd.read_csv(file, ';')
        # 提取日期
        csv_data["Time"] = csv_data["Time"].map(lambda Time: Time[0:10])
        date = csv_data["Time"].drop_duplicates()
        # 提取IP
        ip_list = csv_data.columns.values[1:]
        # 生成新列表
        result_data = []
        for day in list(date):
            ip_data = []
            for ip in ip_list:
                # 統計指定ip地址在指定日期的數據之和
                ip_sum = csv_data.loc[csv_data['Time'] == day, ip].sum()
                ip_data.append(ip_sum)
                # print("日期：%s ip：%s 總計:%s" % (day, ip, ip_sum))
            result_data.append(ip_data)
        # 生成新的DataFrame
        result_df = pd.DataFrame(result_data, index=list(date), columns=ip_list)
        # 添加行列統計
        result_df['day_sum'] = result_df.apply(lambda x: x.sum(), axis=1)
        result_df.loc['ip_sum'] = result_df.apply(lambda x: x.sum())
        print(file, "處理完畢!")
        return result_df

4. excel數據寫入

pandas的to_excel方法也可以寫入到excel文件，但是如果需要寫入到指定的sheet，就無法滿足需求了，此時就需要用的xlwings或者openpyxl庫，此處使用xlwings，參考文檔：https://www.xlwings.org/pro

def save_excel(data_df, file_name, excel_name):
        """
        生成並寫入新excel文件
        :param data_df: pandas數據對象
        :param file_name: 傳入文件名，作爲生成的sheet名稱
        :param excel_name: 生成excel文件名
        :return: null
        """
        sheet_name = file_name[file_name.rfind('/', 1) + 1:file_name.rfind('.', 1)]
        wb = xlwings.Book(excel_name)
        sheet = wb.sheets.add(name=sheet_name)
        sheet.range("A1").value = data_df
        wb.save()
        wb.close()
        print(sheet_name, "Sheet寫入完畢!")

5. 完整代碼

import os
    import pandas as pd
    import xlwings
    def find_csv(path):
        """
        查找目錄下csv文件
        :param path: 查找csv的目錄路徑
        :return: csv文件名list
        """
        csv_file = []
        for root, dirs, files in os.walk(path):
            for file in files:
                if os.path.splitext(file)[1] == '.csv':
                    csv_file.append(os.path.join(root, file))
        return csv_file
    def summary_data(file):
        """
        grafana導出的csv文件處理彙總
        :param file: csv文件路徑
        :return: 處理完成後的pandas對象
        """
        # 讀取整個csv文件
        csv_data = pd.read_csv(file, ';')
        # 提取日期
        csv_data["Time"] = csv_data["Time"].map(lambda Time: Time[0:10])
        date = csv_data["Time"].drop_duplicates()
        # 提取IP
        ip_list = csv_data.columns.values[1:]
        # 生成新列表
        result_data = []
        for day in list(date):
            ip_data = []
            for ip in ip_list:
                ip_sum = csv_data.loc[csv_data['Time'] == day, ip].sum()
                ip_data.append(ip_sum)
                # print("日期：%s ip：%s 總計:%s" % (day, ip, ip_sum))
            result_data.append(ip_data)
        result_df = pd.DataFrame(result_data, index=list(date), columns=ip_list)
        # 添加行列統計
        result_df['day_sum'] = result_df.apply(lambda x: x.sum(), axis=1)
        result_df.loc['ip_sum'] = result_df.apply(lambda x: x.sum())
        print(file, "處理完畢!")
        return result_df
    def save_excel(data_df, file_name, excel_name):
        """
        生成並寫入新excel文件
        :param data_df: pandas數據對象
        :param file_name: 傳入文件名，作爲生成的sheet名稱
        :param excel_name: 生成excel文件名
        :return: null
        """
        sheet_name = file_name[file_name.rfind('/', 1) + 1:file_name.rfind('.', 1)]
        wb = xlwings.Book(excel_name)
        sheet = wb.sheets.add(name=sheet_name)
        sheet.range("A1").value = data_df
        wb.save()
        wb.close()
        print(sheet_name, "Sheet寫入完畢!")
    if __name__ == '__main__':
        # 原始csv文件存放路徑
        path = './csv'
        # 生成excel文件名
        excel_name = 'cm.xlsx'
        csv_file = find_csv(path)
        # 創建excel文件
        new_excel = pd.DataFrame()
        new_excel.to_excel(excel_name)
        # 處理並寫入excel文件
        for file in csv_file:
            data_df = summary_data(file)
            save_excel(data_df, file, excel_name)
        # 刪除默認Sheet1
        wb = xlwings.Book(excel_name)
        wb.sheets['Sheet1'].delete()
        wb.save()
        wb.close()
        print("數據彙總完畢,生成文件路徑 %s/%s" % (os.getcwd(), excel_name))

本文地址：https://www.linuxprobe.com/python-csv-excel.html

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

使用python把csv彙總成excel

企業的組織架構對技術架構的影響

10 張圖幫你搞定 TensorFlow 數據讀取機制

Zorin OS 16.3 發佈：無縫升級和卓越改進！

Linux Sudo 史上最大bug

Mir 2.14 正式發佈，Ubuntu 使用的 Linux 顯示服務器

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結