itextsharp upgrade to itext7

原創

2024-01-11 14:12

Why am I getting duplicate pages extracted from iText7 C#?

Actually it is not the same text being returned from sequential pages. Instead you get

the text from page 1 when you extract page 1;
the text from pages 1 and 2 when you extract page 2;
the text from pages 1, 2, and 3 when you extract page 3;
...

Often this happens for code that re-uses a text extraction strategy for multiple pages. But that's not the case in your code, you correctly create a new strategy object for each page. Thus the cause must be in the PDF itself.

And indeed, each page of your document does contain the contents of all previous pages, too, merely outside its crop box. To extract only the text in the respective page crop box you have to filter, e.g. like this:

string SRC = @"285187.pdf";

PdfDocument pdfDoc = new PdfDocument(new PdfReader(SRC));

Console.WriteLine("\n285187 Filtered\n============\n");

for (int i = 1; i <= pdfDoc.GetNumberOfPages(); i++)
{
    var strategy = new SimpleTextExtractionStrategy();
    var pdfPage = pdfDoc.GetPage(i);

    var filter = new IEventFilter[1];
    filter[0] = new TextRegionEventFilter(pdfPage.GetCropBox());
    var filteredTextEventListener = new FilteredTextEventListener(strategy, filter);

    var currentText = PdfTextExtractor.GetTextFromPage(pdfPage, filteredTextEventListener);

    Console.WriteLine("PAGE {0}", i);
    Console.WriteLine(currentText);
}

pdfDoc.Close();

需要注意的是，策略換成LocationTextExtractionStrategy讀出來的內容就和原來一樣了

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

爲 AntdUI 擴展一個 MessageBox 方法

AntdUI 是個很不錯的開源 WinFrom 界面組件，使用中感覺消息對話框調用有點麻煩，於是按照 MessageBox.Show 的使用習慣，增加了一個擴展方法來調用，廢話不多說，直接上代碼。 1 using System.Win

2024-04-27 14:38:21

電子科技大學計算機科學與技術就讀體驗

已經在 UESTC 度過了第四個年頭，也馬上要畢業了，確實值得回味下，也發表一下我對 UESTC 整個的看法。個人經歷 20年疫情爆發，強基出臺，非國賽的競賽全部作廢。當時第一志願是北理工，但是北理工搞了個自選專業的政策把投檔線拉到了66

瓜皮大哥丶

2024-04-27 14:38:21

【面試準備】又一次失敗的面試經歷，題目離譜～資深軟件測試工程師

這個公司感覺是個好公司，爲啥呢？給的錢看起來挺多的，哇咔咔，加班也不是很嚴重，說是晚上七八點就下班了。測試團隊規模50人，面試官準時進到了我的騰訊會議，但是他點開簡歷，發現我並不是簡歷上的那個人，於是他就退出去了原來是HR搞錯了。後來面

金大鑫要堅持

2024-04-27 14:36:00

（收藏）Mac電腦虛擬機Parallels Desktop 19 親測穩定可用

前言使用mac電腦時，總有某些場景需要用windows，又不願意裝雙系統，更不可能準備兩個電腦。上網搜索，瞭解到mac又一個PD虛擬機，超級好用，果斷查找資源，必須給安裝上正文經過不斷的嘗試和使用，終於發現了一個網站裏提供的 PD虛擬

2024-04-27 14:31:30

Linux內核之I2C協議

I2C協議標準文檔 THE I2C-BUS SPECIFICATION VERSION 2.1 JANUARY 2000: https://www.csd.uoc.gr/~hy428/reading/i2c_spec.pdf I2C全稱In

藍天上的雲℡

2024-04-27 14:30:50

收藏的博客 -- Qt/C++學習收藏的博客 -- Qt/C++學習

收藏的博客 -- Qt/C++學習

2024-04-27 14:30:50

Trie樹帶模糊查詢, ?代表單個非空字符

https://github.com/zhangbo2008/Trie_with_informationExtraction_and_fuzzy_matchingv2

張博的博客

2024-04-27 14:28:49

keycloak~RequiredActionProvider中獲取表單認證前URL的參數

在keycloak中，我們在進行brower瀏覽器的表單認證時，一般在跳到本頁面時，URL上會有redirect_uri這種參數，用來告訴keycloak，在認證成功後的跳轉地址，你在表單認證控制器中，可以通過context.getHttp

2024-04-27 14:21:39

Bochs內存中的Guest和Host

Bochs是通過配置文件（.bxrc文件）的方式來設置模擬計算機的硬件參數，其中MEMORY部分，分別需要設置Guest和Host的大小來決定虛擬計算機的內存大小，有什麼區別呢？通過下面的Bochs構架圖可以弄清楚：要點說明

2024-04-27 14:20:49

統計原理平均數

在統計學中，算術平均數和調和平均數都是常用的描述數據集中趨勢的指標，但它們的計算方法和解釋有所不同。算術平均數：算術平均數是一組數據中所有數值的總和除以數據的個數。它是最常見的平均數類型，用於表示數據的集中趨勢。算術平均數對數據

2024-04-27 14:15:48

SQL窗口分析函數使用詳解系列三之偏移量類窗口函數

1.綜述本文以HiveSQL語法進行代碼演示。對於其他數據庫來說同樣也適用，比如SparkSQL，FlinkSQL以及Mysql8，Oracle，SqlServer等傳統的關係型數據庫。已更新第一類聚合函數類，點擊這裏閱讀 ①SQL窗

2024-04-27 14:15:08

openharmony 多線程的方式有哪些？兩個worker線程數據如何通訊、內存如何共享、與Java多線程有什麼區別？

OpenHarmony操作系統支持多種多線程併發處理策略，以提升應用的響應速度與幀率，以及防止耗時任務對主線程的干擾。以下是OpenHarmony中的多線程方式，以及Worker線程間的數據通訊和內存共享方法，還有它們與Java多線程的區別

2024-04-27 14:13:28

HarmonyOS 鴻蒙隔離層設計

在軟件開發中，底層庫的更換或升級是常見的需求，這可能由性能提升、新功能需求或安全性考慮等因素驅動。爲了降低遷移成本，良好的設計模式至關重要。在版本迭代過程中，網絡請求庫可能會經歷從A到B再到C的演進。爲了實現業務層的無感切換，需要在各個

2024-04-27 14:13:28

2024年最好用的10款ER圖神器！

分享10款ER圖工具，詳細分析他們的功能特點、價格和適用場景，可以根據你的需求進行選擇。ER圖（Entity-Relationship Diagram）是數據庫設計中常用的一種模型，用於描述實體之間的關係。這種圖形化的表示方法旨在幫助人們理

路人111122233

2024-04-27 14:07:57

web server apache tomcat11-22-logging 日誌

前言整理這個官方翻譯的系列，原因是網上大部分的 tomcat 版本比較舊，此版本爲 v11 最新的版本。開源項目從零手寫實現 tomcat minicat 別稱【嗅虎】心有猛虎，輕嗅薔薇。系列文章 web server apac

2024-04-27 14:06:47

24小時熱門文章

最新文章

最新評論文章