訓練tesseract-ocr3.00字典的步驟

原創

2018-09-02 21:54

前提條件：
tesseract-ocr3.00正常安裝
訓練步驟：
1.將要加入字典的圖片轉化爲.tif格式的圖片，文件的命名規則爲[lang].[fontname].exp[num].tif, 例如：eng.oms261.g4.tif，注意此處[fontname]命名不能相同。再根據.tif格式圖片生成.box文件，命令：
tesseract eng.oms261.g4.tif eng.oms261.g4 batch.nochop makebox
2.糾正.box文件中的錯誤，這裏可以使用工具，有不同的工具，根據環境不同選擇，Linux下推薦使用 moshPyTT(下載地址，http://code.google.com/p/moshpytt/)
3.根據生成的.box文件生成.tr文件。命令：
tesseract eng.oms261.g4.tif eng.oms261.g4 nobatch box.train
4.生成unicharset文件。命令：
unicharset_extractor eng.oms261.g4.box ...
注意：從5～9步驟必須在windows環境下進行，Linux下不支持，這是Tesseract-3.00的BUG.
5.生成 pffmtable, inttemp文件. 命令：
mftraining -U unicharset -O lang.unicharset eng.oms261.g4.tr ...
6.生成 normproto文件。命令：
cntraining eng.oms261.g4.tr ...
7.將pffmtable，inttemp，normproto文件加前綴，手動改名爲: eng.pffmtable，eng.inttemp，eng.normproto, 前綴名與前面的命名保持一致。
8.字典文件和模糊校正文件可以提高OCR的識別率，我們可以獲得官方的eng.traindata的此文件，命令：
combine_tessdata -u tessdata/eng.traineddata path/eng.
此時語言包的所有文件都解壓了，挑出我們需要的
eng.unicharambigs
eng.punc-dawg
eng.word-dawg
eng.number-dawg
eng.freq-dawg
這些文件放到我們訓練字典的那個路徑.
9.合併訓練文件，命令：
combine_tessdata eng.
得到我們最終訓練的文件

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

訓練tesseract-ocr3.00字典的步驟

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

本地SSL證書過期輸入命令在IIS自動生成

.NET週刊【5月第2期 2024-05-12】

android基礎學習（1）關於AndroidManifest.xml的學習

爲自己吶喊~！

(轉載)Android的垃圾回收機制（android refbase類（sp wp））

解決“鬧鐘在通話時不彈出，結束通話後彈出”的問題

android opengl------------------ gl10方法解析

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結