開源 OCR 工具 tesseract v4.1.0 的 Docker 鏡像製作與使用

開源 OCR 工具 tesseract v4.1.0 的 Docker 鏡像製作與使用

一 背景

在日常的一些工作中,偶爾也需要我們把圖片轉換爲文字。目前大部分辦公軟件還無法實現類似的功能,因此遇到類似的問題時,我們只能自己動手解決。

Tesseract(識別引擎),一款由HP實驗室開發由Google維護的開源OCR(Optical Character Recognition , 光學字符識別)引擎,與Microsoft Office Document Imaging(MODI)相比,我們可以不斷的訓練的庫,使圖像轉換文本的能力不斷增強;如果團隊深度需要,還可以以它爲模板,開發出符合自身需求的OCR引擎。在 GitHub 上我們目前能看到的最新版本爲:v4.1.0。 本文以 CentOS7.6.1810 爲例對 Tesseract 的安裝及使用進行演示。爲了減少大家重複造輪子,本文已將安裝過程整理爲 Docker 鏡像,需要的小夥伴直接使用文中的 Dockerfile 即可構建鏡像,進而實現開箱即用。

二 鏡像的構建過程

2.1 準備階段

將 Dockerfile 及相關的資源包放到同一目錄。構建目錄結構:

build/
├── 4.1.0.tar.gz
├── Dockerfile
├── leptonica-1.78.0.tar.gz
└── tesseract_langs.tar.gz

2.2 構建命令

docker build -t tesseract-ocr:0903.1.00 .

2.3 Dockerfile

FROM  centos:7.6.1810
LABEL ANTHOR="IVAN DU" VERSION="0903.0.01" BUILD_DATE="2019-09-03" \
      RESOURCES="https://github.com/tesseract-ocr/tesserac http://www.leptonica.org/index.html https://github.com/tesseract-ocr/tessdata"
ENV   LD_LIBRARY_PATH="/usr/local/lib" \
      LIBLEPT_HEADERSDIR="/usr/local/include" \
      PKG_CONFIG_PATH="/usr/local/lib/pkgconfig" \
      TESSDATA_PREFIX="/usr/local/share/tessdata"
ADD   4.1.0.tar.gz /
ADD   leptonica-1.78.0.tar.gz /
ADD   tesseract_langs.tar.gz /usr/local/share/tessdata/
RUN   yum -y install file automake libjpeg-devel libpng-devel libtiff-devel zlib-devel libtool gcc-c++ make \
      && cd /leptonica-1.78.0 && ./configure && make && make install \
      && cd /tesseract-4.1.0 && ./autogen.sh && ./configure && make && make install \
      && rm -rf /leptonica-1.78.0 /tesseract-4.1.0

2.4 文章相關資源

本文涉及到的所以資源均已上傳至 CSDN ,如有需要,自行下載即可。

2.5 驗證

docker run --rm -v ${PWD}:/data ace78e7ad3b5 tesseract /data/3.jpg /data/gysl -l chi_sim
Tesseract Open Source OCR Engine v4.1.0 with Leptonica
cat gysl.txt
在 日 常 的 一 些 工 作 中 , 俊 爾 也 霽 妮 我 們 技 圖 片 轉 振 爲 文 字 , 目 前 大 鄂 分 力 公 軟 作 廷 無 法 實 現 婁 伯 的 功
解 , 因 止 通 到 羔 佑 的 問 題 時 , 我 們 司 能 自 已 動 手 航

Tesseract (iR8S| 敷 ) , 一 欲 由 HP 實 駕 室 開 發 由 Google 雕 護 的 開 源 0CR (Oplcal Character
Recogniton , 光 學 字 祖 R3J) 引 摸 , 與 Microsoft Ofce DocumentImagmg (MODI) 相 比 , 我 們 可 以 不
斷 的 州 練 的 庫 , 俚 圖 僧 轉 浩 文 本 的 能 力 不 抗 增 強 ; 如 鬆 團 隊 深 度 靄 要 , 還 可 以 以 它 爲 模 鬆 , 開 發 出 等 合
自 軀 的 OCRS| 敷 , 在 GItHub 上 我 們 目 前 能 睿 刺 的 最 新 版 本 爲 : v4 10。 本 文 以 Cent0S7 6 1810
爲 偉 Tesseract 的 安 裝 司 儉 用 跡 行 演 示 , 爲 了 源 少 大 家 重 夏 迢 子 , 本 文 已 旅 安 裝 程 坪 理 爲 Docker
鎬 像 , 霏 要 的 小 仁 伴 眼 接 俠 用 文 中 的 Dockerfie 卵 可 皎 鎬 像 , 進 市 宇 現 開 鍇 卯 用 .

識別內容爲本文第一段除了標題部分內容。效果並不佳。試了一下英文資料的識別,比中文要好不少。

三 總結

3.1 Tesseract 目前對中文的識別效果並不好,不推薦使用。如果你不介意多花時間,可以考慮使用它提供的訓練功能自定義你的語言庫,那樣在特定場景下識別率應該能上一個臺階。

3.2 純英文內容可以試一下。

3.3 文章的資源包及鏡像在本人CSDN相關賬戶下可以找到,不想耗費時間只想直接使用的小夥伴歡迎直接下載。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章