說說 python-docx 解析 word 文檔的原理

1 安裝

首先通過 pip 安裝 python-docx,命令爲 pip install python-docx

2 解析原理

python-docx 使用 Document 對象來表示整個 docx 文檔。其內部包含 一個Paragraph 對象列表。每個 Paragraph 對應 docx 文檔的一個段落。

word 文檔中除了字符串,還包含字體、大小、顏色等樣式信息。相同樣式的連續字符串,就會被保存在一個 Run 對象中。

假設 docx 文檔中有下面這些內容:

那麼經過 python-docx 解析,就會生成 3 個 Run 對象:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章