tesseract 訓練 + 識別

1. 聯合語言訓練庫

tesseract也提出,通過使用多個語言訓練庫聯合使用。如此,新的語言訓練庫也可以與原有的數據訓練庫聯合使用。如參數 -l 之後 tesseract input.tif output -l eng+newlanguage。
注意:+ 前後不能有空格

2.限定識別範圍

例如限定識別字符在爲英文字母和數字

在 tessdata/configs 目錄下 新建文件 letters_digits
輸入 tessedit_char_whitelist 0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ

識別時指定:
tesseract  captcha_0.tif stdout nobatch letters_digits 

3. 指定 psm mode

驗證碼識別用 7 或 8

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章