一:簡介
OCR(Optical Character Recognition):光學字符識別,是指電子設備(例如掃描儀或數碼相機)檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然後用字符識別方法將形狀翻譯成計算機文字的過程。
Tesseract:開源的OCR識別引擎,初期Tesseract引擎由HP實驗室研發,後來貢獻給了開源軟件業,後由Google進行改進、修改bug、優化,重新發布。
二:下載
1、Windows版本Tesseract各版本下載,本教程用的版本是tesseract-ocr-w64-setup-v5.0.0.20190623(【注意】要3.0以上才支持中文)。
項目github地址:Tesseract
2、各版本對應字庫要識別簡體中文需要下載chi_sim.traindata字庫(【注意】根據版本下載對應字庫)。
3、jTessBoxEditor官網下載,用來訓練字庫的,帶FX的版本才支持中文。
4、各位打不開鏈接的朋友,看這裏:
鏈接:https://pan.baidu.com/s/1ViyFSR9CjXVy8b7mQeTISQ
提取碼:m87b
三:安裝
這個就不截圖了
安裝完成後我們配置環境變量
四:配置環境變量
1、配置系統環境變量
tesseract-ocr-Home
C:\Program Files\Tesseract-OCR
path : 加上新配置的信息
;%tesseract-ocr-Home%
2、配置字庫-後期JAVA API要使用
TESSDATA_PREFIX
C:\Program Files\Tesseract-OCR\tessdata
備註:將下載好的字庫放到Tesseract-OCR項目的tessdata文件夾裏面。
五:驗證安裝的效果
在cmd窗口輸入tesseract -v,配置成功如下圖:
六:識別-看看識別的效果
1、tesseract 圖片名稱 生成的結果文件的名稱 字庫
例如我的圖片識別就是:
tesseract test.png result -l eng
1、執行命令:
2、原圖片:
3、識別結果:
這一期就先這樣了