開源 OCR 工具 tesseract v4.1.0 的 Docker 鏡像製作與使用

原創

2019-09-03 20:07

開源 OCR 工具 tesseract v4.1.0 的 Docker 鏡像製作與使用

一背景

在日常的一些工作中，偶爾也需要我們把圖片轉換爲文字。目前大部分辦公軟件還無法實現類似的功能，因此遇到類似的問題時，我們只能自己動手解決。

Tesseract（識別引擎），一款由HP實驗室開發由Google維護的開源OCR（Optical Character Recognition , 光學字符識別）引擎，與Microsoft Office Document Imaging（MODI）相比，我們可以不斷的訓練的庫，使圖像轉換文本的能力不斷增強；如果團隊深度需要，還可以以它爲模板，開發出符合自身需求的OCR引擎。在 GitHub 上我們目前能看到的最新版本爲：v4.1.0。本文以 CentOS7.6.1810 爲例對 Tesseract 的安裝及使用進行演示。爲了減少大家重複造輪子，本文已將安裝過程整理爲 Docker 鏡像，需要的小夥伴直接使用文中的 Dockerfile 即可構建鏡像，進而實現開箱即用。

二鏡像的構建過程

2.1 準備階段

將 Dockerfile 及相關的資源包放到同一目錄。構建目錄結構：

build/
├── 4.1.0.tar.gz
├── Dockerfile
├── leptonica-1.78.0.tar.gz
└── tesseract_langs.tar.gz

2.2 構建命令

docker build -t tesseract-ocr:0903.1.00 .

2.3 Dockerfile

FROM  centos:7.6.1810
LABEL ANTHOR="IVAN DU" VERSION="0903.0.01" BUILD_DATE="2019-09-03" \
      RESOURCES="https://github.com/tesseract-ocr/tesserac http://www.leptonica.org/index.html https://github.com/tesseract-ocr/tessdata"
ENV   LD_LIBRARY_PATH="/usr/local/lib" \
      LIBLEPT_HEADERSDIR="/usr/local/include" \
      PKG_CONFIG_PATH="/usr/local/lib/pkgconfig" \
      TESSDATA_PREFIX="/usr/local/share/tessdata"
ADD   4.1.0.tar.gz /
ADD   leptonica-1.78.0.tar.gz /
ADD   tesseract_langs.tar.gz /usr/local/share/tessdata/
RUN   yum -y install file automake libjpeg-devel libpng-devel libtiff-devel zlib-devel libtool gcc-c++ make \
      && cd /leptonica-1.78.0 && ./configure && make && make install \
      && cd /tesseract-4.1.0 && ./autogen.sh && ./configure && make && make install \
      && rm -rf /leptonica-1.78.0 /tesseract-4.1.0

2.4 文章相關資源

本文涉及到的所以資源均已上傳至 CSDN ，如有需要，自行下載即可。

2.5 驗證

docker run --rm -v ${PWD}:/data ace78e7ad3b5 tesseract /data/3.jpg /data/gysl -l chi_sim
Tesseract Open Source OCR Engine v4.1.0 with Leptonica
cat gysl.txt
在 日 常 的 一 些 工 作 中 , 俊 爾 也 霽 妮 我 們 技 圖 片 轉 振 爲 文 字 , 目 前 大 鄂 分 力 公 軟 作 廷 無 法 實 現 婁 伯 的 功
解 , 因 止 通 到 羔 佑 的 問 題 時 , 我 們 司 能 自 已 動 手 航

Tesseract (iR8S| 敷 ) , 一 欲 由 HP 實 駕 室 開 發 由 Google 雕 護 的 開 源 0CR (Oplcal Character
Recogniton , 光 學 字 祖 R3J) 引 摸 , 與 Microsoft Ofce DocumentImagmg (MODI) 相 比 , 我 們 可 以 不
斷 的 州 練 的 庫 , 俚 圖 僧 轉 浩 文 本 的 能 力 不 抗 增 強 ; 如 鬆 團 隊 深 度 靄 要 , 還 可 以 以 它 爲 模 鬆 , 開 發 出 等 合
自 軀 的 OCRS| 敷 , 在 GItHub 上 我 們 目 前 能 睿 刺 的 最 新 版 本 爲 : v4 10。 本 文 以 Cent0S7 6 1810
爲 偉 Tesseract 的 安 裝 司 儉 用 跡 行 演 示 , 爲 了 源 少 大 家 重 夏 迢 子 , 本 文 已 旅 安 裝 程 坪 理 爲 Docker
鎬 像 , 霏 要 的 小 仁 伴 眼 接 俠 用 文 中 的 Dockerfie 卵 可 皎 鎬 像 , 進 市 宇 現 開 鍇 卯 用 .

識別內容爲本文第一段除了標題部分內容。效果並不佳。試了一下英文資料的識別，比中文要好不少。

三總結

3.1 Tesseract 目前對中文的識別效果並不好，不推薦使用。如果你不介意多花時間，可以考慮使用它提供的訓練功能自定義你的語言庫，那樣在特定場景下識別率應該能上一個臺階。

3.2 純英文內容可以試一下。

3.3 文章的資源包及鏡像在本人CSDN相關賬戶下可以找到，不想耗費時間只想直接使用的小夥伴歡迎直接下載。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

開源 OCR 工具 tesseract v4.1.0 的 Docker 鏡像製作與使用

開源 OCR 工具 tesseract v4.1.0 的 Docker 鏡像製作與使用

一背景

二鏡像的構建過程

2.1 準備階段

2.2 構建命令

2.3 Dockerfile

2.4 文章相關資源

2.5 驗證

三總結

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

free AI online tools All In One

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（二）使用kube-vip實現集羣VIP訪問

企業大模型如何成爲自己數據的“百科全書”？

本地SSL證書過期輸入命令在IIS自動生成

.NET週刊【5月第2期 2024-05-12】

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（一）部署K8s

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（三）數據卷掛載NFS（網絡文件系統）

筆記：Docker命令自動補全

開源 OCR 工具 tesseract v4.1.0 的 Docker 鏡像製作與使用

深入淺出 Kubernetes：StatefulSet 概念理解與實踐

Kuberntes 中無法刪除 PV 的解決方法

深入淺出 Kubernetes：淺談 Deployment 和 ReplicaSet

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

開源 OCR 工具 tesseract v4.1.0 的 Docker 鏡像製作與使用

開源 OCR 工具 tesseract v4.1.0 的 Docker 鏡像製作與使用

一 背景

二 鏡像的構建過程

2.1 準備階段

2.2 構建命令

2.3 Dockerfile

2.4 文章相關資源

2.5 驗證

三 總結

一背景

二鏡像的構建過程

三總結