1 安裝
首先通過 pip 安裝 python-docx,命令爲 pip install python-docx
。
2 解析原理
python-docx 使用 Document 對象來表示整個 docx 文檔。其內部包含 一個Paragraph 對象列表。每個 Paragraph 對應 docx 文檔的一個段落。
word 文檔中除了字符串,還包含字體、大小、顏色等樣式信息。相同樣式的連續字符串,就會被保存在一個 Run 對象中。
假設 docx 文檔中有下面這些內容:
那麼經過 python-docx 解析,就會生成 3 個 Run 對象: