關於tesseract字符訓練遇到的問題及解決方法

在OCR中,對字符訓練是必不可少的,但是,在訓練過程中,卻會遇到各種問題,我是小白鼠,剛剛接觸tesseract,我把我在做字符訓練過程中遇到的問題簡單描述一下與大家分享。如果有什麼不妥的地方,還請大家多多指教!

1、 我們的運行目錄一定要在圖片所在的目錄下,這也是我們之後存放所生成的文件的目錄。在做訓練之前,要建立一個文件font_properties ,文件名不能變,只能是font_properties,如果你創建的文件是txt格式,或者是別的格式,創建好之後一定要把後綴去掉,如果不去掉,運行時會提示failed to load font_properties from font_properties或者是位置信息錯誤或者是內存錯誤或者是運行時邏輯錯誤。

2、待識別的圖片要嚴格按照命名規則命名,格式爲lang.fontname.exp0.tif圖片格式爲tif或者tiff都可以,lang是我們自己定義的圖片名稱,可以用任意詞代替,如果沒有按照格式命名圖片,運行時會提示Cannot open lang.fontname.exp0.tif

3、一些自動生成的文件需要自己手動改前綴名,自動生成的文件都是後綴名,前綴爲lang,即是我們自己定義的名稱,上下一定要保持一致,否則會顯示文件不存在。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章