Tesseract5.0 圖像識別本地服務 三 【訓練自定義字庫,提高圖片的識別效果】

一:簡介

OCR(Optical Character Recognition):光學字符識別,是指電子設備(例如掃描儀或數碼相機)檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然後用字符識別方法將形狀翻譯成計算機文字的過程。
Tesseract:開源的OCR識別引擎,初期Tesseract引擎由HP實驗室研發,後來貢獻給了開源軟件業,後由Google進行改進、修改bug、優化,重新發布。

二:訓練自定義字庫

本文大量參考學習以下文章:

Tesseract-OCR 中文識別與訓練字庫 : https://www.jianshu.com/p/3326c7216696
Tesseract5.0訓練字庫,提高OCR識別率:https://www.cnblogs.com/pyweb/p/11457519.html
Tesseract-OCR-v5.0中文識別,訓練自定義字庫:http://www.likecs.com/show-90988.html

下面發一個來自網絡的已經經過訓練過的可用的簡體中文字庫

鏈接:https://pan.baidu.com/s/1a2RHUj10mJu7vGAHGVFotw 
提取碼:k9v7 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章