前提條件:
tesseract-ocr3.00正常安裝
訓練步驟:
1.將要加入字典的圖片轉化爲.tif格式的圖片,文件的命名規則爲[lang].[fontname].exp[num].tif, 例如:eng.oms261.g4.tif,注意此處[fontname]命名不能相同。 再根據.tif格式圖片生成.box文件,命令:
tesseract eng.oms261.g4.tif eng.oms261.g4 batch.nochop makebox
2.糾正.box文件中的錯誤,這裏可以使用工具,有不同的工具,根據環境不同選擇,Linux下推薦使用 moshPyTT(下載地址,http://code.google.com/p/moshpytt/)
3.根據生成的.box文件生成.tr文件。 命令:
tesseract eng.oms261.g4.tif eng.oms261.g4 nobatch box.train
4.生成unicharset文件。 命令:
unicharset_extractor eng.oms261.g4.box ...
注意:從5~9步驟必須在windows環境下進行,Linux下不支持,這是Tesseract-3.00的BUG.
5.生成 pffmtable, inttemp文件. 命令:
mftraining -U unicharset -O lang.unicharset eng.oms261.g4.tr ...
6.生成 normproto文件。 命令 :
cntraining eng.oms261.g4.tr ...
7.將pffmtable,inttemp,normproto文件加前綴,手動改名爲: eng.pffmtable,eng.inttemp,eng.normproto, 前綴名與前面的命名保持一致。
8.字典文件和模糊校正文件可以提高OCR的識別率,我們可以獲得官方的eng.traindata的此文件, 命令:
combine_tessdata -u tessdata/eng.traineddata path/eng.
此時語言包的所有文件都解壓了,挑出我們需要的
eng.unicharambigs
eng.punc-dawg
eng.word-dawg
eng.number-dawg
eng.freq-dawg
這些文件放到我們訓練字典的那個路徑.
9.合併訓練文件,命令:
combine_tessdata eng.
得到我們最終訓練的文件
訓練tesseract-ocr3.00字典的步驟
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章
Tesseract-ocr在vs2008環境下的調用方法
lilin020401
2020-06-27 18:50:42
Tesseract-ocr在Ubuntu12.04下的安裝下詳解
本文主要講Tesseract-OCR在Ubuntu12.04下的具體安裝過程。1.安裝前必備的包 一般Ubuntu系統都配置好了 sudo ap
lilin020401
2020-06-27 18:50:41
初學tesseract(筆記)
weixin_44040169
2020-06-14 00:08:10
Tesseract-ocr自己做訓練樣本庫來進行字符識別
lilin020401
2020-02-24 18:31:35
如何使用tesseract-ocr4.0識別圖片文字
专注JavaWeb开发
2020-02-21 05:53:55
Tesseract 一鍵生成字庫
gx_mj
2020-02-20 23:13:12
C++在Tesseract-OCR中使用自己訓練的字庫進行字體識別
gx_mj
2020-02-20 23:13:12
python集成Tesseract-OCR實現光學字符識別
Jayboy.chen
2019-10-25 13:32:41
python下安裝pytesseract,tesseract-ocr
D_grey
2019-09-05 03:18:39
contains_unichar_id異常
andylan_zy
2019-04-25 18:48:07
tesseract-ocr在vs2010下面的安裝調試
lilin020401
2018-09-05 07:08:16
在centos下安裝cVideo平臺後連接tesseract
lilin020401
2018-09-05 07:08:15
在centos6.5下安裝tesseract3.02
lilin020401
2018-09-05 07:08:12
Tesseract-OCR訓練實現對模糊身份證號碼的識別
擦肩回眸2011
2018-09-03 02:29:21
【轉自“果殼網”微軟亞洲學院】光學字符識別技術:讓電腦“讀”懂世界
大郭姐
2018-09-03 02:08:30