【教程】Spire.PDF教程:C# 从 PDF 页面的指定区域内提取文本

Spire.PDF是一个专业的PDF组件,能够独立地创建、编写、编辑、操作和阅读PDF文件,支持 .NET、Java、WPF和Silverlight。

下载Spire.PDF最新试用版

有时我们可能需要获取PDF页面中某个区域内的文本而不是全部的文本。本文将介绍如何使用Spire.PDF组件提取PDF页面中指定矩形区域内的文本。

以下是我们所使用的示例文档截图,红色矩形区域是即将提取文本的区域。

Extract-Text-from-a-Specific-Rectangular-Area-in-PDF-1

代码段:

//创建PdfDocument实例  
PdfDocument pdf = new PdfDocument();  
//加载PDF文档  
pdf.LoadFromFile("Input.pdf");  
   
//获取第一页  
PdfPageBase page = pdf.Pages[0];  
   
//从第一页的指定矩形区域内提取文本  
string text = page.ExtractText(new RectangleF(50, 50, 500, 100) );  
   
//将文本写入.txt文件  
StringBuilder sb = new StringBuilder();  
sb.AppendLine(text);  
File.WriteAllText("Extract.txt", sb.ToString());  

效果图:

Extract-Text-from-a-Specific-Rectangular-Area-in-PDF-2

查看冰蓝更多产品教程,为你推荐:

                                                                         Spire.Doc系列教程>>

                                                                         Spire.XLS系列教程>>

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章