文檔管理系統 Mayan EDMS支持中文OCR

原創

2020-06-26 14:13

1.介紹

安裝完後報錯OCR識別中文報錯了
Exception calling Tesseract with language option: zho; RAN: /usr/bin/tesseract - - -l zhoSTDOUT: STDERR: Error opening data file /usr/share/tesseract-ocr/4.00/tessdata/zho.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to your “tessdata” directory. Failed loading language ‘zho’ Tesseract couldn’t load any languages! Could not initialize tesseract. The requested OCR language “zho” is not available and needs to be installed.

文檔管理系統 Mayan EDMS，安裝完默認OCR不支持中文的。
文檔管理系統 Mayan EDMS默認採用Tesseract，可以自己後端封裝。

OCR_BACKEND的默認值爲 "ocr.backends.tesseract.Tesseract"

要在使用Tesseract時爲OCR更多語言添加支持，請安裝相應的語言文件。如果使用基於Debian的操作系統，此命令將顯示可用的語言文件：

apt-cache search tesseract-ocr

2.步驟

Mayan EDMS使用的標準是ISO 639-3，默認顯示很多很多的語言，我們刪去不要的，默認支持中文和英語

系統-設置-設置-文檔

DOCUMENTS_LANGUAGE_CODES，
例如，將列表縮小爲僅英語和中文

DOCUMENTS_LANGUAGE_CODES = ('eng', 'zho')

zho在ISO 639表示中文，其他語言在https://tesseract-ocr.github.io/tessdoc/Data-Files查找

也可以使用以下命令配置下拉菜單中顯示的默認語言：

DOCUMENTS_LANGUAGE = 'zho'

修改完後重啓服務

sudo systemctl restart supervisor

完成後如圖

3，上傳OCR訓練文件庫

cd /usr/share/tesseract-ocr/4.00/tessdata
ls

默認是沒有zho.traineddata這個訓練文件的

下載traineddata地址
找到
chi_sim Chinese - Simplified chi_sim.traineddata
chi_tra Chinese - Traditional chi_tra.traineddata

https://tesseract-ocr.github.io/tessdoc/Data-Files

這裏我們下載chi_sim.traineddata簡體中文就好了

https://github.com/tesseract-ocr/tessdata/raw/4.00/chi_sim.traineddata

下載完成後，上傳到

 /usr/share/tesseract-ocr/4.00/tessdata

修改爲zho.traineddata

現在這個系統就可以支持中文的圖片識別了

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

文檔管理系統 Mayan EDMS支持中文OCR

1.介紹

2.步驟

TDengine docker安裝方法

vue項目獲取富文本編輯器wangEditor內容導出爲word（html轉word格式並下載）

dotnet C# 創建 X11 應用時設置窗口背景顏色

vue3組件通信與props

sapui5

Alpine Linux apk add DNS lookup error

部分JDK版本的發佈時間

工作中用到的腳本合集

合併代碼時Beyond Compare設置

Navicat安裝與激活教程

DDOS攻擊類型分析

Ubuntu 18.04換國內源（命令方式）

文檔管理系統 Mayan EDMS支持中文OCR

手遊服務防DDOS攻擊方案

root清空message提示Operation not permitted

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結