Java 提取Word中的文本和圖片

本文將介紹通過Java來提取或讀取Word文檔中文本和圖片的方法。這裏提取文本和圖片包括同時提取文檔正文當中以及頁眉、頁腳中的的文本和圖片。

使用工具：Spire.Doc for Java v2.2.0

Jar文件導入方法：

方法1：從官網下載安裝包。在程序下新建一個directory目錄，並命名（本示例中命名爲lib）；將控件包lib文件夾下的jar（如下圖1）拷貝到程序中新建的目錄下。複製jar文件後，鼠標右鍵點擊jar文件，選擇”Add as Library”。完成導入（如下圖2）。

圖1：

圖2：

方法2：通過maven導入。參考導入方法（https://www.e-iceblue.cn/licensing/install-spirepdf-for-java-from-maven-repository.html ）。

測試文檔如下：

Java代碼示例（供參考）

【示例1】提取Word中的文本

import com.spire.doc.*;
import java.io.FileWriter;
import java.io.IOException;

public class ExtractText {
    public static void main(String[] args) throws IOException{
        //加載測試文檔
        Document doc = new Document();
        doc.loadFromFile("test.docx");

        //獲取文本保存爲String
        String text = doc.getText();

        //將String寫入Txt
        writeStringToTxt(text,"提取文本.txt");
    }
    public static void writeStringToTxt(String content, String txtFileName) throws IOException {

        FileWriter fWriter= new FileWriter(txtFileName,true);
        try {
            fWriter.write(content);
        }catch(IOException ex){
            ex.printStackTrace();
        }finally{
            try{
                fWriter.flush();
                fWriter.close();
            } catch (IOException ex) {
                ex.printStackTrace();
            }
        }
    }
}

文本提取結果：

【示例2】提取Word中的圖片

import com.spire.doc.Document;
import com.spire.doc.documents.DocumentObjectType;
import com.spire.doc.fields.DocPicture;
import com.spire.doc.interfaces.ICompositeObject;
import com.spire.doc.interfaces.IDocumentObject;
import javax.imageio.ImageIO;
import java.awt.image.RenderedImage;
import java.io.File;
import java.io.IOException;
import java.util.ArrayList;
import java.util.LinkedList;
import java.util.List;
import java.util.Queue;

public class ExtractImg {
    public static void main(String[] args) throws IOException {
        //加載Word文檔
        Document document = new Document();
        document.loadFromFile("test.docx");

        //創建Queue對象
        Queue nodes = new LinkedList();
        nodes.add(document);

        //創建List對象
        List images = new ArrayList();

        //遍歷文檔中的子對象
        while (nodes.size() > 0) {
            ICompositeObject node = (ICompositeObject) nodes.poll();
            for (int i = 0; i < node.getChildObjects().getCount(); i++) {
                IDocumentObject child = node.getChildObjects().get(i);
                if (child instanceof ICompositeObject) {
                    nodes.add((ICompositeObject) child);

                    //獲取圖片並添加到List
                    if (child.getDocumentObjectType() == DocumentObjectType.Picture) {
                        DocPicture picture = (DocPicture) child;
                        images.add(picture.getImage());
                    }
                }
            }
        }

        //將圖片保存爲PNG格式文件
        for (int i = 0; i < images.size(); i++) {
            File file = new File(String.format("圖片-%d.png", i));
            ImageIO.write((RenderedImage) images.get(i), "PNG", file);
        }

    }
}

圖片提取結果：

（本文完）

Java 提取Word中的文本和圖片

Java代碼示例（供參考）

【示例1】提取Word中的文本

【示例2】提取Word中的圖片

2024年DataOps趨勢預測：AI不會取代數據工程師

雲原生週刊：K8s 中的服務和網絡｜ 2024.4.29

[轉帖]cpupower

今天，昨天，近七天，近30天，近90天，js封裝

華爲云云原生FinOps解決方案，釋放雲原生最大價值

Java 將PDF/XPS轉爲Word/html /SVG/PS/PCL/PNG、PDF和XPS互轉（基於Spire.Cloud.SDK for Java）

Java 在PDF中添加文本水印、圖片水印（基於Spire.Cloud.SDK for Java）

Java 讀取Word中的腳註、尾註

C# 設置、刪除、讀取Word文檔背景——基於Spire.Cloud.SDK for .NET

Java 創建/編輯/刪除Excel迷你圖表

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結