Tesseract5.0 圖像識別本地服務 一 【安裝配置】

一:簡介

OCR(Optical Character Recognition):光學字符識別,是指電子設備(例如掃描儀或數碼相機)檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然後用字符識別方法將形狀翻譯成計算機文字的過程。
Tesseract:開源的OCR識別引擎,初期Tesseract引擎由HP實驗室研發,後來貢獻給了開源軟件業,後由Google進行改進、修改bug、優化,重新發布。

二:下載

1、Windows版本Tesseract各版本下載,本教程用的版本是tesseract-ocr-w64-setup-v5.0.0.20190623(【注意】要3.0以上才支持中文)。
項目github地址:Tesseract

2、各版本對應字庫要識別簡體中文需要下載chi_sim.traindata字庫(【注意】根據版本下載對應字庫)。

3、jTessBoxEditor官網下載,用來訓練字庫的,帶FX的版本才支持中文。

4、各位打不開鏈接的朋友,看這裏:

鏈接:https://pan.baidu.com/s/1ViyFSR9CjXVy8b7mQeTISQ 
提取碼:m87b 

 三:安裝

這個就不截圖了

安裝完成後我們配置環境變量

四:配置環境變量

1、配置系統環境變量

tesseract-ocr-Home

C:\Program Files\Tesseract-OCR

path : 加上新配置的信息

;%tesseract-ocr-Home%

2、配置字庫-後期JAVA API要使用

TESSDATA_PREFIX

C:\Program Files\Tesseract-OCR\tessdata

備註:將下載好的字庫放到Tesseract-OCR項目的tessdata文件夾裏面。 

五:驗證安裝的效果

在cmd窗口輸入tesseract -v,配置成功如下圖:

 

六:識別-看看識別的效果 

 

1、tesseract 圖片名稱 生成的結果文件的名稱 字庫

 例如我的圖片識別就是:

tesseract test.png result -l eng

 1、執行命令:

2、原圖片:

3、識別結果:

這一期就先這樣了

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章