Tesseract5.0 圖像識別本地服務 二 【字庫、訓練識別模型】

一:簡介

OCR(Optical Character Recognition):光學字符識別,是指電子設備(例如掃描儀或數碼相機)檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然後用字符識別方法將形狀翻譯成計算機文字的過程。
Tesseract:開源的OCR識別引擎,初期Tesseract引擎由HP實驗室研發,後來貢獻給了開源軟件業,後由Google進行改進、修改bug、優化,重新發布。

二:語言字庫

 

書接上回,咱們先放字庫地址:

1、Windows版本Tesseract各版本下載 ,https://github.com/tesseract-ocr/tesseract/wiki/Data-Files
2、懶得思考的人吶,直接來這裏下載:https://tesseract-ocr.github.io/tessdoc/Data-Files
3、再放一個地址GIthub,直接來這裏下載:https://github.com/tesseract-ocr/tessdata

再訪問不了,那我也沒辦法了

鏈接:https://pan.baidu.com/s/1zolP6jiQFP1pABT8z9zh5Q 
提取碼:cxjt

各版本對應字庫要識別簡體中文需要下載chi_sim.traindata字庫(【注意】根據版本下載對應字庫)。

下載簡體中文後放入你的字體庫:

我的是:C:\Program Files\Tesseract-OCR\tessdata

三:拿個圖片來比劃比劃

books.jpg​​​​​​
執行命令如下:tesseract books.jpg result -l chi_sim

解釋器:
-l chi_sim 表示用簡體中文字庫(需要下載中文字庫文件,解壓後,存放到tessdata目錄下去,字庫文件擴展名爲 .raineddata 簡體中文字庫文件名爲: chi_sim.traineddata)

1、執行過程:

2、執行結果:

隨機拍攝的照片,識別效果不怎麼樣。標準化的圖片應該會很好

四:遇到的問題處理

語言庫裏面的簡體中文有問題,解決辦法就是
用命令:【tesseract --list-langs】來查看Tesseract-OCR支持語言,如果沒有則自行添加對應庫。

看到確實是簡體中文的語言不存在,所以不能支持了。

正確情況如下:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章