1. 聯合語言訓練庫
tesseract也提出,通過使用多個語言訓練庫聯合使用。如此,新的語言訓練庫也可以與原有的數據訓練庫聯合使用。如參數 -l 之後 tesseract input.tif output -l eng+newlanguage。
注意:+ 前後不能有空格
2.限定識別範圍
例如限定識別字符在爲英文字母和數字
在 tessdata/configs 目錄下 新建文件 letters_digits
輸入 tessedit_char_whitelist 0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ
識別時指定:
tesseract captcha_0.tif stdout nobatch letters_digits
3. 指定 psm mode
驗證碼識別用 7 或 8