【python】自動化辦公之excel入GP庫實戰詳解(xlwings+psycopg2)

python已經不僅是程序員學習使用的工具了,它已經深深融入我們日常工作辦公中。本人在工作中每月都會收集大量excel表格文件,做相關彙總處理,還要把清單數據導入數據庫中。手動完成幾乎浪費了我大半天的時間,作爲一個擁有編程思想追求進步的程序媛怎可如此?能用腳本實現的東西決不能重複操作。

本篇結合實際工作內容,主要使用xlwings和psycopg2包,實現excel表格數據導入GP數據庫功能。

介紹

py版本:python 3.7

結果表結構:表結構
excel內容:
excel內容

思路

本篇主要通過xlwings包實現讀取excel數據,通過psycopg2包實現數據入庫。方法如下:

  1. get_row_col(fileName, sheetName):獲取excel某sheet頁有數據的最大行數和列數。參數分別文件路徑和sheet頁名稱。
  2. get_date():批量獲取數據,無需值處理。適合數據完整、值中無特殊字符,可直接入庫的場景。返回數據爲list類型。
  3. trans_data():批量獲取數據,並且對值做製表符替換等處理。本篇對指標附和’|| '(||+TAB符號)進行處理,在調試階段沒做處理會出現報錯情況。返回數據爲list類型。
  4. executemany(data):executemany()方法批量執行sql實現數據入庫,data爲list類型。此方法需要定義insert語句,優勢是操作字段更靈活,缺點是如果操作數據量達到上千條就會十分卡慢。
  5. copy_from(data):copy_from()方法數據入庫,data爲list類型。直接調用pgload,適合數據量大的入庫操作。

最終可根據實際需求組合實現入庫,本人採用trans_data+copy_from方法。

腳本

#!/usr/bin/python
#coding=utf-8
import os,re

os.chdir(r'D:\summer\svn')
path = os.getcwd()
import xlwings as xw
import psycopg2
from io import StringIO
import pandas as pd


def get_row_col(fileName, sheetName):
    "獲取sheet頁有數據的最大行數和列數"

    wb = xw.Book(fileName)
    ws = wb.sheets(sheetName)

    info = ws.used_range
    nrows = info.last_cell.row
    ncols = info.last_cell.column

    return nrows, ncols

def get_date():
    "批量獲取數據,無需值處理"
    
    fileName = path + '\\文檔名稱.xlsx'
    sheetName = '清單'
    row_col = get_row_col(fileName, sheetName)
    wb_pro = xw.Book(fileName)
    ws_pro = wb_pro.sheets(sheetName)
    #數據從A2開始,J列取最大行結束
    a = 'A2:J' + str(row_col[0])
    data = ws_pro.range(a)
    return data.value


def trans_data():
    "批量獲取數據,並且對值做製表符替換等處理"
    
    list = []  # 定義列表用來存放數據
    fileName = path + '\\文檔名稱.xlsx'
    sheetName = '清單'
    row_col = get_row_col(fileName, sheetName)
    wb_pro = xw.Book(fileName)
    ws_pro = wb_pro.sheets(sheetName)
    
    #定位從第幾行是數據,存在第一二行無用數據的情況
    A1 = ws_pro.range('A1').value
    A2 = ws_pro.range('A2').value
    if A1 == '賬期':
        row = 2
    elif A2 == '賬期':
        row = 3
	#如果方法不想拆開,也可以直接用註釋內容實現
    # conn = psycopg2.connect(host='***.***.***.**', user='gpadmin', password='***', database='***', port=5432)
    # cursor = conn.cursor()
    # sql = "insert into anrpt.project_usage  values(%s, %s, %s, %s, %s, %s, %s, %s, %s, %s)"

    for i in range(row, row_col[0]+1):

        print(str(i) + ' : ' + str(row_col[1]))

        row_data = ws_pro.range('A'+str(i) ,'J'+str(i)).value  # 按行獲取excel的值
        #H列和I列存在製表符和tab等符號需要替換
        hn = re.sub('[\s+] ', '', str(row_data[7])).replace('||\'	\'', '')
        In = re.sub('[\s+] ', '', str(row_data[8]))
        value = [row_data[0], row_data[1], row_data[2], row_data[3], row_data[4], row_data[5], row_data[6],hn , In, row_data[9]]

        list.append(value)  # 將數據暫存在列表

    return list

    # cursor.executemany(sql, list)  # 執行sql語句
    # conn.commit()
    # conn.close()
    #list.clear()  # 清空list


def executemany(data):
    "executemany()方法批量執行sql實現數據入庫,data爲list類型"
    
    conn = psycopg2.connect(host='***.***.***.**', user='gpadmin', password='***', database='***', port=5432)
    cur = conn.cursor()
    sql =  "insert into anrpt.project_usage  values(%s, %s, %s, %s, %s, %s, %s, %s, %s, %s)"

    cur.executemany(sql, data)
    conn.commit()
    conn.close()

def copy_from(data):
    "copy_from()方法數據入庫,data爲list類型"
    
    data1 = pd.DataFrame(data)
    # dataframe類型轉換爲IO緩衝區中的str類型
    output = StringIO()
    data1.to_csv(output, sep='\t', index=False, header=False)
    output1 = output.getvalue()

    conn = psycopg2.connect(host='***.***.***.**', user='gpadmin', password='***', database='***', port=5432)
    cur = conn.cursor()
    cur.copy_from(StringIO(output1), 'anrpt.project_usage')
    conn.commit()
    conn.close()
    print('done')

if __name__ == '__main__':
    # data = get_date()
    data = trans_data()
    #executemany(data)
    copy_from(data)

相關文章:【python】pip指定路徑安裝文件

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章