[日常]用Python讀取word文檔中的表格並比較 2018-10-04

最近想對某些word文檔(docx)的表格內容作比較, 於是找了一下相關工具. 參考Automate the Boring Stuff with Python中的word部分, 試用了python-docx - python-docx 0.8.7 documentation

演示如下. 兩個簡單的word文檔, 各有一個表格:
2018-10-04-docx_單列表比較
讀取文檔中的表格到列表(爲演示只對單列表格操作):

import docx

def 取表格(文件名):
  文件 = docx.Document(文件名)
  首個表 = 文件.tables[0]= []
  forin 首個表.rows:
    forin.cells:.append(.text)
  print(文件名 + " -> " + str())
  return 值
    
表1 = 取表格('表1.docx')

讀取結果:

表1.docx -> ['值1', '值2', '值3']

接着找到這個做比較的python庫seperman/deepdiff, 來源: Get difference between two lists

from deepdiff import DeepDiff

表1 = 取表格('表1.docx')2 = 取表格('表2.docx')

print(DeepDiff(1,2))

輸出結果(爲更可讀, 已手動格式化):

{
'values_changed': 
  {'root[1]': 
    {'new_value': '值2.5', 'old_value': '值2'}
  }, 
'iterable_item_added': 
  {'root[3]': '值4'}
}

顯示了修改的值和添加的值, 還挺好用. 實際的表格是兩列, 需要按照某個鍵值作對比. 於是用字典, 正好DeepDiff也提供兩個字典間的比較. 雙列表文件演示:
2018-10-04-docx_雙列表比較
讀取雙列表到字典後, 進行比較:

import docx
from deepdiff import DeepDiff
from pprint import pprint

def 取表格(文件名):
  文件 = docx.Document(文件名)
  首個表 = 文件.tables[0]= {}
  forin 首個表.rows:=.cells
    值[[0].text] =[1].text
  print(文件名 + " -> " + str())
  return 值

表1 = 取表格('雙列表1.docx')2 = 取表格('雙列表2.docx')

pprint(DeepDiff(1,2), indent=2)

輸出如下:

{ 'dictionary_item_added': {"root['鍵3']"},
  'values_changed': {"root['鍵2']": {'new_value': '值2.5', 'old_value': '值2'}}}

源碼在: program-in-chinese/house_of_10000_business

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章