使用jTessBoxEditorFX進行ocr訓練的實際操作步驟

原創

2020-06-01 23:47

使用jTessBoxEditorFX進行ocr訓練
實際的操作步驟如下。
先把訓練用樣本圖像準備好。
1、打開 jTessBoxEditor ，選擇 Tools -> Merge TIFF，打開對話框，選擇訓練樣本所在文件夾，並選中所有要參與訓練的樣本圖片，注意對話框中“文件類型”的選取png
2、之後有打開對話框，輸入“chi_my.font.exp0.tif”，格式爲tiff。其中chi_my可改爲自己定義。
會生成chi_my.font.exp0.tif文件。
3、在命令行下執行
tesseract chi_my.font.exp0.tif chi_my.font.exp0 -l chi_sim batch.nochop makebox
tesseract chi_my.font.exp0.tif chi_my.font.exp0 -l eng batch.nochop makebox
會生成“chi_my.font.exp0.box” 文件。
4、打開 jTessBoxEditor ，點擊 Box Editor -> Open，選擇chi_my.font.exp0.tif文件。
5、調整識別錯誤的情況
會是慘絕人寰的過程。尤其是圖像，字符比較多的情況。
注意、修改後的保存需點擊界面上charater後的標識爲設置圖標的button後，再點擊save按鈕。

6、創建字體特徵文件
echo font 0 0 0 0 0>font_properties
會生成“font_properties” 文件。文件size顯示爲0字節。其實裏面有‘“font 0 0 0 0 0”’內容。
7、訓練
tesseract chi_my.font.exp0.tif chi_my.font.exp0 -l eng -psm 7 nobatch box.train
8、生成字符集文件
unicharset_extractor chi_my.font.exp0.box
生成 “unicharset” 文件。
9、生成shape文件，聚集字符特徵文件，字符正常化特徵文件等四個文件。
9.1、命令 shapeclustering -F font_properties -U unicharset -O langyp.unicharset langyp.fontyp.exp0.tr
  生成 “shapetable”“inttemp”“pffmtable” 文件。
9.2、命令 mftraining -F font_properties -U unicharset -O langyp.unicharset langyp.fontyp.exp0.tr
  生成 “pinyin.unicharset” 文件。
9.3、命令 cntraining langyp.fontyp.exp0.tr
  生成 “normproto” 文件。

10、更名，合併訓練文件
更名
  rename normproto langyp.normproto
  rename inttemp langyp.inttemp
  rename pffmtable langyp.pffmtable
  rename unicharset langyp.unicharset
  rename shapetable langyp.shapetable
合併訓練文件，
  combine_tessdata langyp.
生成langyp.traineddata文件。

11、將生成的 “langyp.traineddata” 語言包文件拷貝到tesseract的tessdata 目錄下，
就可以用它來進行中文字符識別了。

實例：
G:\Program Files (x86)\jTessBoxEditorFX\samples\pinyin>unicharset_extractor pinyin.font.exp0.box
Extracting unicharset from pinyin.font.exp0.box
Wrote unicharset file ./unicharset.

G:\Program Files (x86)\jTessBoxEditorFX\samples\pinyin>shapeclustering -F font_properties -U unicharset -O pinyin.unicharset pinyin.font.exp0.tr
Reading pinyin.font.exp0.tr ...

G:\Program Files (x86)\jTessBoxEditorFX\samples\pinyin>mftraining -F font_properties -U unicharset -O pinyin.unicharset pinyin.font.exp0.tr
Read shape table shapetable of 27 shapes

G:\Program Files (x86)\jTessBoxEditorFX\samples\pinyin>cntraining pinyin.font.exp0.tr
Reading pinyin.font.exp0.tr ...
Clustering ...

G:\Program Files (x86)\jTessBoxEditorFX\samples\pinyin>combine_tessdata pinyin.
Combining tessdata files

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

使用jTessBoxEditorFX進行ocr訓練的實際操作步驟

.Net 8.0 下的新RPC，IceRPC之試試的新玩法"打洞"

完美替代postman的軟件

Vue mockjs mock.js

關於遊戲付費的一點想法

我通過CKA和CKS啦！

安裝chromadb注意事項

《最新出爐》系列入門篇-Python+Playwright自動化測試-42-強大的可視化追蹤利器Trace Viewer

大數據怎麼學？對大數據開發領域及崗位的詳細解讀，完整理解大數據開發領域技術體系

使用jTessBoxEditorFX進行ocr訓練的實際操作步驟

python 爬蟲列表

螞蟻金服金融大腦的挑戰賽的實現代碼 NLP文本相似度計算

爲豬臉識別而進行自己數據集的構建、訓練

使用opencv_python進行視頻分析遇到的bgsegm問題

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結