Tesseract5.0 圖像識別本地服務二【字庫、訓練識別模型】

原創

2020-06-25 10:24

一：簡介

OCR(Optical Character Recognition)：光學字符識別，是指電子設備（例如掃描儀或數碼相機）檢查紙上打印的字符，通過檢測暗、亮的模式確定其形狀，然後用字符識別方法將形狀翻譯成計算機文字的過程。
Tesseract：開源的OCR識別引擎，初期Tesseract引擎由HP實驗室研發，後來貢獻給了開源軟件業，後由Google進行改進、修改bug、優化，重新發布。

二：語言字庫

書接上回，咱們先放字庫地址：

1、Windows版本Tesseract各版本下載，https://github.com/tesseract-ocr/tesseract/wiki/Data-Files
2、懶得思考的人吶，直接來這裏下載：https://tesseract-ocr.github.io/tessdoc/Data-Files
3、再放一個地址GIthub，直接來這裏下載：https://github.com/tesseract-ocr/tessdata

再訪問不了，那我也沒辦法了

鏈接：https://pan.baidu.com/s/1zolP6jiQFP1pABT8z9zh5Q
提取碼：cxjt

各版本對應字庫要識別簡體中文需要下載chi_sim.traindata字庫（【注意】根據版本下載對應字庫）。

下載簡體中文後放入你的字體庫：

我的是：C:\Program Files\Tesseract-OCR\tessdata

三：拿個圖片來比劃比劃

執行命令如下：tesseract books.jpg result -l chi_sim

解釋器：
-l chi_sim 表示用簡體中文字庫（需要下載中文字庫文件，解壓後，存放到tessdata目錄下去,字庫文件擴展名爲 .raineddata 簡體中文字庫文件名爲: chi_sim.traineddata）

1、執行過程：

2、執行結果：

隨機拍攝的照片，識別效果不怎麼樣。標準化的圖片應該會很好

四：遇到的問題處理

語言庫裏面的簡體中文有問題，解決辦法就是
用命令：【tesseract --list-langs】來查看Tesseract-OCR支持語言，如果沒有則自行添加對應庫。

看到確實是簡體中文的語言不存在，所以不能支持了。

正確情況如下：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Tesseract5.0 圖像識別本地服務二【字庫、訓練識別模型】

一：簡介

二：語言字庫

三：拿個圖片來比劃比劃

四：遇到的問題處理

開源API查詢IP地址歸屬信息

Nginx日誌分析統計 goaccess-1.3部署與使用

Tesseract5.0 圖像識別本地服務二【字庫、訓練識別模型】

Tesseract5.0 圖像識別本地服務四【Java服務API】

Tesseract5.0 圖像識別本地服務一【安裝配置】

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

Tesseract5.0 圖像識別本地服務 二 【字庫、訓練識別模型】

一：簡介

二：語言字庫

三：拿個圖片來比劃比劃

四：遇到的問題處理

Tesseract5.0 圖像識別本地服務二【字庫、訓練識別模型】