文檔管理系統 Mayan EDMS支持中文OCR

1.介紹

安裝完後報錯OCR識別中文報錯了
Exception calling Tesseract with language option: zho; RAN: /usr/bin/tesseract - - -l zhoSTDOUT: STDERR: Error opening data file /usr/share/tesseract-ocr/4.00/tessdata/zho.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to your “tessdata” directory. Failed loading language ‘zho’ Tesseract couldn’t load any languages! Could not initialize tesseract. The requested OCR language “zho” is not available and needs to be installed.

文檔管理系統 Mayan EDMS,安裝完默認OCR不支持中文的。
文檔管理系統 Mayan EDMS默認採用Tesseract,可以自己後端封裝。

OCR_BACKEND的默認值爲 "ocr.backends.tesseract.Tesseract"

要在使用Tesseract時爲OCR更多語言添加支持,請安裝相應的語言文件。如果使用基於Debian的操作系統,此命令將顯示可用的語言文件:

apt-cache search tesseract-ocr

2.步驟

Mayan EDMS使用的標準是ISO 639-3,默認顯示很多很多的語言,我們刪去不要的,默認支持中文和英語

系統-設置-設置-文檔
在這裏插入圖片描述

DOCUMENTS_LANGUAGE_CODES
例如,將列表縮小爲僅英語和中文

DOCUMENTS_LANGUAGE_CODES = ('eng', 'zho')

zho在ISO 639表示中文,其他語言在https://tesseract-ocr.github.io/tessdoc/Data-Files查找
在這裏插入圖片描述
也可以使用以下命令配置下拉菜單中顯示的默認語言:

DOCUMENTS_LANGUAGE = 'zho'

修改完後重啓服務

sudo systemctl restart supervisor

完成後如圖
在這裏插入圖片描述

3,上傳OCR訓練文件庫

cd /usr/share/tesseract-ocr/4.00/tessdata
ls

默認是沒有zho.traineddata這個訓練文件的
在這裏插入圖片描述
下載traineddata地址
找到
chi_sim Chinese - Simplified chi_sim.traineddata
chi_tra Chinese - Traditional chi_tra.traineddata

https://tesseract-ocr.github.io/tessdoc/Data-Files

這裏我們下載chi_sim.traineddata簡體中文就好了

https://github.com/tesseract-ocr/tessdata/raw/4.00/chi_sim.traineddata

下載完成後,上傳到

 /usr/share/tesseract-ocr/4.00/tessdata

修改爲zho.traineddata

現在這個系統就可以支持中文的圖片識別了

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章