OCR文檔識別——數據錄入工廠

數據錄入工廠特色
識別核心
軟件內置文通科技最新研發的高性能文字識別引擎,支持中英日韓四國文字以及對英文的混排,識別率達99.8%以上。
Unicode編碼
採用UNICODE國際編碼標準。系統可在一個統一的平臺下,同時處理包括中文、日文、韓文、英文在內的多種文字的識別和校對修改。
校對方式靈活準確
在橫向校對的基礎上,提供縱向校對進行校對輔助,儘可能的讓校對高效率,文字正確率更高
導出格式多樣靈活,支持PDF、TXT、WORD、XLS等格式
多種應用模式:該軟件即可獨立作爲數據加工軟件使用,也可以針對檔案、文檔、全文檢索系統做接口;
脫機批量導入:該軟件配套的Image To PDF的批量識別轉換功能,可以實現自動監視文件夾,並直接對導入文件批量識別轉換問pdf格式的文件,適應無人操作工作模式。
集字校對器:該軟件配套的集字校對器,可以實現集字校對(即縱向校對)的模式,改變傳統的校對模式,避免校對人員陷入文字情節中,增加了校對正確率。
畫框識別:功能允許用戶只識別手工編輯修改過的或新增加的區域,而保留其他已經完成校對的文字區域,爲用戶使用提供最大的靈活性與方便性。
自學功能:針對古籍、科研等特殊領域文檔中經常出現的特殊文字,即使不在國家標準範圍以內或者TH-OCR字庫中並沒有支持,用戶也可通過自學習功能,將這些文字的圖像學習進入系統,使得調整後的核心可以支持這些文字的識別。 
版面還原:強大的版面還原技術,可將識別後的報刊、雜誌、圖書等多種形式的文檔,通過還原字體、字號、版面位置、字體顏色等信息以原版原式呈現在讀者面前,最終生成優質的全息PDF文檔。
Image to PDF批量轉換工具
在2013安裝目錄下,提供了Image to PDF的批量轉換工具,可以實現掃描、識別、轉換、導出文件自動流程化的工作,可以做到人機分離,節約人力操作成本的目的。
文通TH-OCR2013數據錄入工廠功能介紹
圖片導入:文通TH-OCR2013數據錄入工廠支持掃描導入和本地文件導入兩種方式來導入要識別的圖片信息;同時可以在導入後通過本軟件對圖像文件進行處理,以達到更好的識別效果。
圖像處理
翻轉
對掃描結果和導入圖片,進行順時針90度翻轉,可以對顛倒、翻轉的圖片進行回覆向上,使圖像識別效果更佳完美。 
裁切
由於圖像在拍攝等捕獲方式中,會出現有效圖像信息邊緣出現冗餘圖像部分,可以通過裁切,確保獲得的都是有效圖像信息。
抹白
當掃描一些古典書籍,由於紙張久遠,且書本有一定厚度的時候,常常會出現黑邊或者其它一些雜點,啓用抹白功能可以大大優化圖像的效果。
傾斜校正
在文件自動掃描過程中,掃描文件經常會出現傾斜情況,自動傾斜校正功能可以將傾斜(15°以內爲佳)的圖像自動矯正,使原件調整到整齊的位置,使掃描的文檔更加完美;對於大於15°的傾斜圖像,可以用手動校正功能,對圖像進行任意角度的傾斜校正。
識別區域順序調整
對於報刊,雜誌等排版順序不是簡單的從上而下,或從左至右的情況;可以手動調整識別區域的順序,以達到正確時文章順序,使得導出的文本信息有章有序。
區域識別順序視圖
添加表格線
對於文檔中出現的表格線,由於掃描時不清晰的原因,或者爲了達到方便識別的目的,可以手動的添加繪製表格線,使得最終文件表格被更好的識別,從而達到直接導出完美的excel表格。
文章劃分
對於報紙、雜誌、期刊等文件,當圖片中出現對各文章並存,且分部不是標準矩形,可以通過文章劃分,將版面劃分爲多個可自由拓展的多邊形文本框。
自學習功能
對於字庫之外的生僻字,或者部分樣本中的長錯字,可以通過自動學習功能,將字符加入軟件字庫,“教會”軟件新的漢字。
用戶自學習功能視圖
遺漏檢測
在圖像識別之後,通過遺漏檢測,軟件會給出圖像中未被分析識別的圖像部分,以防止漏識。
畫框建字
在圖像識別後,通過畫框建字,創建單個區域內的單字識別,避免由於換行等原因造成的個別字誤識、錯識。
版面分析
可以對檔案、圖書、公文、報紙等進行自動版面分析。將版面分爲橫排文本(藍色框線)、豎排文本(紅色框線)、圖像(綠色框線)、表格(紫色框線)四種類型。用戶也可以根據需求,進行手動版面分析;同時將文本信息按照語言劃分語言種類,包括中文,英文,日文,韓文。
版面分析
校對
橫向校對
在識別結果區域中,系統會首先判斷出可疑字並標出。通過人工逐字逐句比較識別結果與原始圖像,找到錯誤的地方並修改。
浮動跟蹤條可以提高橫向校對的速度,它是將識別的原始圖像塊跟蹤顯示在識別結果上,使識別結果與原始圖像一一對應的顯示,並且可以根據使用者習慣改變浮動條前景色和背景色、以及可疑字顏色。直觀、方便、快捷。
橫向校對視圖


集字校對(縱向校對)
1.查錯率高,集字校對編輯器把識別結果相同的文字對應的圖像顯示在一起。由於少數錯誤的字與大量正確的字有差別,可以比較容易地發現錯字,不易漏掉錯誤。 
2.集字校對編輯器重新組織文字順序,不會使校對人員陷入到識別文字的故事情節中。 
3.校對效率高,不易疲勞。 
4.把集字校對的結果與傳統方法校對的結果進行比較、綜合,就能得到最高的查錯和糾錯效果,得到儘可能低的錯誤率和最好的最終結果。
集字校對視圖
文件導出
識別、校對過程結束後,可以根據用戶需求的不同,導出不同格式的文件,包括rtf格式、xls格式、txt格式已經雙層PDF、圖像PDF、文本PDF等文件。
導出頁面視圖
版面還原功能
2013在導出.rtf格式的word文件時,提供了版面還原功能,該功能爲了方便用戶在word中排版,最大程度上的按照原文件的格式對文字進行重新排版,而不是簡單的文本文字。
在一些雜誌、期刊、報紙等的瀏覽上更加符合用戶要求,能夠完整的體現出文件原貌。
Image to PDF轉換工具
2013數據錄入工廠中提供了Image to PDF批量轉換功能,可以直接將掃描文件通過自動掃描識別等流程,批量轉換爲PDF格式文件。
同時,此過程支持監視文件夾的功能,可以對文件夾中新進入的文件,直接進行OCR識別處理,省去了大量人工操作的時間,實現人機分離,節約人力和時間成本。

答疑:見賬號呢

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章