[轉].NET下讀取PDF文本

原創

技术无国界

2020-02-21 12:13

在.NET下讀取PDF文本用到的類庫主要有兩個：PDFBox和iTextSharp。

PDFBox

先說PDFBox，這個類庫據說功能很強大，本人在這只是簡單介紹一下：

1、下載PDFBox

下載地址：http://sourceforge.net/projects/pdfbox/

2、引用動態鏈接庫

解壓縮下載的PDFBox，找到其中的Bin目錄，需要在項目中添加引用的dll文件有：

IKVM.GNU.Classpath.dll
PDFBox-0.7.3.dll
FontBox-0.1.0-dev.dllI
KVM.Runtime.dll

將以上4個文件引用到項目中，在文件中需要引入以下2個命名空間：

using org.pdfbox.pdmodel;
using org.pdfbox.util;

3、API的使用方法看代碼：

using org.pdfbox.pdmodel;
using org.pdfbox.util;
public void pdf2txt(FileInfo file,FileInfo txtfile)
{
        PDDocument doc = PDDocument.load(file.FullName);
        PDFTextStripper pdfStripper = new PDFTextStripper();
        string text = pdfStripper.getText(doc);
        StreamWriter swPdfChange = new StreamWriter(txtfile.FullName, false, Encoding.GetEncoding("gb2312"));
        swPdfChange.Write(text);
        swPdfChange.Close();
}

iTextSharp

其實很多時候都是用於生成PDF，但是他讀取PDF的能力也不差，使用如下：
下載地址：http://sourceforge.net/projects/itextsharp/

2、引用動態鏈接庫

解壓縮下載的壓縮包裏面的itextsharp-dll-core.zip，得到itextsharp.dll，在項目中添加引用itextsharp.dll即可在文件中需要引入以下3個命名空間：

using iTextSharp; 
using iTextSharp.text; 
using iTextSharp.text.pdf;

3、API的使用方法看代碼：

 private string OnCreated(string filepath)
        {
            try
            {
                string pdffilename = filepath;
                PdfReader pdfReader = new PdfReader(pdffilename);
                int numberOfPages = pdfReader.NumberOfPages;
                string text = string.Empty;

                for (int i = 1; i <= numberOfPages; ++i)
                {
                    byte[] bufferOfPageContent = pdfReader.GetPageContent(i);
                    text += System.Text.Encoding.UTF8.GetString(bufferOfPageContent);
                }
                pdfReader.Close();

                return text;
            }
            catch (Exception ex)
            {
                StreamWriter wlog = File.AppendText(System.AppDomain.CurrentDomain.SetupInformation.ApplicationBase + "\\mylog.log");
                wlog.WriteLine("出錯文件：" + e.FullPath + "原因：" + ex.ToString());
                wlog.Flush();
                wlog.Close(); return null;
            }

        }

轉：http://www.cnblogs.com/freeliver54/p/5048532.html

技術無國界

發佈了42 篇原創文章 · 獲贊 25 · 訪問量 19萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

[轉].NET下讀取PDF文本

PDFBox

1、下載PDFBox

2、引用動態鏈接庫

3、API的使用方法看代碼：

iTextSharp

2、引用動態鏈接庫

3、API的使用方法看代碼：

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

free AI online tools All In One

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（二）使用kube-vip實現集羣VIP訪問

企業大模型如何成爲自己數據的“百科全書”？

本地SSL證書過期輸入命令在IIS自動生成

.NET週刊【5月第2期 2024-05-12】

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（一）部署K8s

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（三）數據卷掛載NFS（網絡文件系統）

Maven配置和用法

Tomcat 9 解決“At least one JAR was scanned for TLDs yet contained no TLDs”問題（親測可行）

安裝android studio時候彈出unable to access android sdk add-on list解決方法

easyui window 和dialog form提交空值

[轉].NET下讀取PDF文本

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結