Tesseract5.0 圖像識別本地服務一【安裝配置】

原創

2020-06-25 10:24

一：簡介

OCR(Optical Character Recognition)：光學字符識別，是指電子設備（例如掃描儀或數碼相機）檢查紙上打印的字符，通過檢測暗、亮的模式確定其形狀，然後用字符識別方法將形狀翻譯成計算機文字的過程。
Tesseract：開源的OCR識別引擎，初期Tesseract引擎由HP實驗室研發，後來貢獻給了開源軟件業，後由Google進行改進、修改bug、優化，重新發布。

二：下載

1、Windows版本Tesseract各版本下載，本教程用的版本是tesseract-ocr-w64-setup-v5.0.0.20190623（【注意】要3.0以上才支持中文）。
項目github地址：Tesseract

2、各版本對應字庫要識別簡體中文需要下載chi_sim.traindata字庫（【注意】根據版本下載對應字庫）。

3、jTessBoxEditor官網下載，用來訓練字庫的，帶FX的版本才支持中文。

4、各位打不開鏈接的朋友，看這裏：

鏈接：https://pan.baidu.com/s/1ViyFSR9CjXVy8b7mQeTISQ
提取碼：m87b

三：安裝

這個就不截圖了

安裝完成後我們配置環境變量

四：配置環境變量

1、配置系統環境變量

tesseract-ocr-Home

C:\Program Files\Tesseract-OCR

path : 加上新配置的信息

;%tesseract-ocr-Home%

2、配置字庫-後期JAVA API要使用

TESSDATA_PREFIX

C:\Program Files\Tesseract-OCR\tessdata

備註：將下載好的字庫放到Tesseract-OCR項目的tessdata文件夾裏面。

五：驗證安裝的效果

在cmd窗口輸入tesseract -v，配置成功如下圖：

六：識別-看看識別的效果

1、tesseract 圖片名稱 生成的結果文件的名稱 字庫

例如我的圖片識別就是：

tesseract test.png result -l eng

1、執行命令：

2、原圖片：

3、識別結果：

這一期就先這樣了

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Tesseract5.0 圖像識別本地服務一【安裝配置】

一：簡介

二：下載