訓練tesseract-ocr3.00字典的步驟

前提條件:
tesseract-ocr3.00正常安裝
訓練步驟:
1.將要加入字典的圖片轉化爲.tif格式的圖片,文件的命名規則爲[lang].[fontname].exp[num].tif, 例如:eng.oms261.g4.tif,注意此處[fontname]命名不能相同。 再根據.tif格式圖片生成.box文件,命令:
 tesseract eng.oms261.g4.tif eng.oms261.g4 batch.nochop makebox
2.糾正.box文件中的錯誤,這裏可以使用工具,有不同的工具,根據環境不同選擇,Linux下推薦使用 moshPyTT(下載地址,http://code.google.com/p/moshpytt/)
3.根據生成的.box文件生成.tr文件。 命令:
 tesseract eng.oms261.g4.tif eng.oms261.g4 nobatch box.train
4.生成unicharset文件。 命令:
 unicharset_extractor eng.oms261.g4.box ...
注意:從5~9步驟必須在windows環境下進行,Linux下不支持,這是Tesseract-3.00的BUG.
5.生成 pffmtable, inttemp文件. 命令:
 mftraining -U unicharset -O lang.unicharset eng.oms261.g4.tr ...
6.生成 normproto文件。 命令 :
 cntraining eng.oms261.g4.tr ...
7.將pffmtable,inttemp,normproto文件加前綴,手動改名爲: eng.pffmtable,eng.inttemp,eng.normproto, 前綴名與前面的命名保持一致。
8.字典文件和模糊校正文件可以提高OCR的識別率,我們可以獲得官方的eng.traindata的此文件, 命令:
 combine_tessdata -u tessdata/eng.traineddata path/eng.
此時語言包的所有文件都解壓了,挑出我們需要的
eng.unicharambigs
eng.punc-dawg
eng.word-dawg
eng.number-dawg
eng.freq-dawg
這些文件放到我們訓練字典的那個路徑.
9.合併訓練文件,命令:
 combine_tessdata eng.
得到我們最終訓練的文件



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章