tesseract訓練字符中遇到的問題總結

參考文章:  http://my.oschina.net/lixinspace/blog/60124  的採用tessract庫訓練字符的過程,
對中文字符庫,比如車牌中的省份簡稱等的訓練,字母的訓練,數目和字母的訓練。


在訓練過程中,發現了以下問題:
1、font_properties的文件創建:
     文件中的內容爲:UnknownFont 0 0 0 0 0


     因爲在訓練過程中,我並沒有對文件命名,所以系統默認是:UnknownFont 這個名稱。


2、把unicharset, inttemp, normproto, pfftable這四個文件加上前綴“orderNo.”時,少寫了一個文件shapetable,此文件也應該重新命名。


3、鑑於 http://www.lixin.me/blog/2012/05/26/29536  在下面討論中,提到的3.02版本需要一個 shapeclustering 過程


Example:
font_properties file:
timesitalic 1 0 0 1 0
shapeclustering -F font_properties -U unicharset eng.timesitalic.exp0.tr
mftraining -F font_properties -U unicharset -O eng.unicharset eng.timesitalic.exp0.tr


其實是沒有必要的。



以下附上命令行使用,可以將這些拷貝到一個文件中,命名爲.bat文件,就可以直接使用,而不用一行一行敲代碼了。


tesseract.exe letterNumMerge.tif letterNumMerge batch.nochop makebox
pause
tesseract.exe letterNumMerge.tif letterNumMerge nobatch box.train
unicharset_extractor.exe letterNumMerge.box
mftraining.exe -F font_properties -U unicharset letterNumMerge.tr
cntraining.exe letterNumMerge.tr
rename normproto letterNumMerge.normproto
rename unicharset letterNumMerge.unicharset
rename inttemp letterNumMerge.inttemp
rename pffmtable letterNumMerge.pffmtable
rename shapetable letterNumMerge.shapetable
pause
combine_tessdata.exe letterNumMerge.
pause



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章