Java 提取PDF文本內容

概述

一般來說,我們無法對PDF文檔格式的內容進行修改編輯,但當我們確有此需求時,可通過提取文本內容的方式來實現。本文就將介紹如何通過Java代碼來提取PDF文檔中的文本內容。

此教程用到的第三方控件是Free Spire.PDF for Java(免費版)。根據不同需求,它可以支持以下三方面的提取功能。

●  提取PDF文檔中的所有文本內容

●  提取PDF指定頁面的文本內容

●  提取PDF指定區域的文本內容

Jar包的獲取及導入

在運行代碼前,需將Free Spire.PDF for Java控件中的Jar包導入IDEA中。導入方式有兩種:其一,在官網上下載產品包,解壓後將lib文件夾下的Spire.Pdf.jar手動導入IDEA;其二,在IDEA中創建一個Maven項目,然後在pom.xml文件中鍵入以下代碼,最後點擊“Import Changes”即可。

<repositories>

       <repository>

           <id>com.e-iceblue</id>

           <url>http://repo.e-iceblue.cn/repository/maven-public/</url>

       </repository>

    </repositories>

<dependencies>

    <dependency>

       <groupId>e-iceblue</groupId>

       <artifactId>spire.pdf.free</artifactId>

       <version>3.9.0</version>

    </dependency>

</dependencies>

示例代碼

示例1 提取PDF文檔中的所有文本內容

import com.spire.pdf.PdfDocument;

import com.spire.pdf.PdfPageBase;

import java.io.*;

public class ExtractAllText {

public static void main(String[] args) {

//創建PdfDocument實例

PdfDocument doc=new PdfDocument();

//加載PDF文檔

doc.loadFromFile("C:\\Users\\Test1\\Desktop\\Sample.pdf");

//創建StringBuilder實例

StringBuilder sb=new StringBuilder();

PdfPageBase page;

//遍歷PDF頁面,獲取每個頁面的文本並添加到StringBuilder對象

for(int i=0;i

page=doc.getPages().get(i);

sb.append(page.extractText(true));

        }

FileWriter writer;

try {

//將StringBuilder對象中的文本寫入到文本文件

writer = new FileWriter("output/ExtractText.txt");

writer.write(sb.toString());

writer.flush();

        } catch (IOExceptione) {

            e.printStackTrace();

        }

        doc.close();

    }

}

提取效果:

示例2 提取PDF指定頁面的文本內容

import com.spire.pdf.*;

import java.io.BufferedWriter;

import java.io.File;

import java.io.FileWriter;

import java.io.IOException;

public class ExtractTextFromParticularPage {

public static void main(String[] args) throws IOException{

//加載PDF文檔

PdfDocument pdf = new PdfDocument();

pdf.loadFromFile("C:\\Users\\Test1\\Desktop\\Sample.pdf");

//創建.txt文件,用於保存提取的文本

String result = "output/extractTextFromAParticularPage.txt";

File file= new File(result);

if(!file.exists()){

            file.delete();

        }

file.createNewFile();

FileWriter fw= new FileWriter(file,true);

BufferedWriter bw= new BufferedWriter(fw);

//獲取第一頁的文本

PdfPageBase page = pdf.getPages().get(0);

String text = page.extractText(true);

//String text = page.extractText(false);

        bw.write(text);

        bw.flush();

        bw.close();

        fw.close();

    }

}

提取效果:

示例3 提取PDF指定區域的文本內容

import com.spire.pdf.*;

import java.awt.geom.Rectangle2D;

import java.io.BufferedWriter;

import java.io.File;

import java.io.FileWriter;

import java.io.IOException;

public class ExtractTextFromSpecificArea {

public static void main(String[] args) throws IOException{

//加載PDF文檔

PdfDocument pdf = new PdfDocument();

pdf.loadFromFile("C:\\Users\\Test1\\Desktop\\Sample.pdf");

//創建.txt文件,用於保存提取的文本

File file=new File("output/extractTextFromASpecificArea.txt");

if(!file.exists()){

            file.delete();

        }

 file.createNewFile();

FileWriter fw= new FileWriter(file,true);

BufferedWriter bw= new BufferedWriter(fw);

//獲取第一頁

PdfPageBase page = pdf.getPages().get(0);

//提取第一頁指定區域的文本

String text = page.extractText(new Rectangle2D.Float(80, 20,500, 110));

bw.write(text);

bw.flush();

bw.close();

fw.close();

    }

}

提取效果:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章