光學字符識別 Tesseract-OCR 的下載、安裝和基本用法

原創

TRHX

2019-08-13 20:20

OCR：即Optical Character Recognition，光學字符識別，是指檢查紙或者圖片上打印的字符，通過檢測暗、亮的模式確定其形狀，然後用字符識別方法將形狀翻譯成計算機文字的過程；

Tesseract-OCR：一款由HP實驗室（惠普布里斯托實驗室）開發，由Google維護的開源OCR引擎，可以經過不斷的訓練，增強圖像轉換文本的能力，Tesseract-OCR 也經常被用於Python爬蟲的驗證碼識別

1、下載安裝Tesseract-OCR

官方GitHub地址：https://github.com/tesseract-ocr/

下載地址一：https://github.com/UB-Mannheim/tesseract/wiki （僅Windows操作系統，最新版本）
下載地址二：https://digi.bib.uni-mannheim.de/tesseract/ （僅Windows操作系統，歷史版本）
下載地址三：https://github.com/tesseract-ocr/tesseract/wiki （其他操作系統）

以下以 V5.0.0 版本爲例進行安裝，雙擊 tesseract-ocr-w64-setup-v5.0.0-alpha.20190708.exe 安裝程序，基本上一直next就OK了，注意要勾選 Additional language data(download) 安裝OCR識別支持的語言包

在這裏勾選 Additional language data(download) ，安裝OCR識別支持的語言包，在安裝語言包時會比較慢，所以建議不要全選，根據需要選擇即可，若後期需要增加語言包，可在官網下載後放到Tesseract-OCR\tessdata\tessconfigs目錄下即可，不同版本的對應的語言包也不同，下載地址：https://github.com/tesseract-ocr/tesseract/wiki/Data-Files#data-files-for-version-302

2、配置環境變量

依次右鍵【此電腦】-【屬性】-【高級系統設置】-【環境變量】，在【系統變量】裏找到【Path】變量，選擇【編輯】-【新建】，將你的Tesseract-OCR安裝路徑填寫進去，比如我的是：E:\Tesseract-OCR，點擊確定保存即可

3、測試是否成功安裝

打開cmd，輸入 tesseract 會顯示一些 Tesseract-OCR 相關用法提示，輸入 tesseract -v 可以查看到 Tesseract-OCR 的版本信息，說明此時安裝成功

4、基本用法

完整命令：tesseract 圖片路徑和圖片名結果路徑和結果名 -l 語言
舉例：tesseract F:\code\test.png F:\code\result -l eng
注意：
1、需要識別的圖片要加後綴
2、結果文件名不需要加後綴，會自動加後綴，生成的是txt文件
3、-l 是英文字母l，不是數字1，language 語言的意思，不加默認英文
4、eng 表示英文，chi_sim 表示簡體中文
5、將cmd切換到要識別圖片的文件夾後，就不用加圖片路徑

在 Python 中使用：（需要安裝 pytesseract 庫）

import pytesseract
from PIL import Image

# 打開圖片
img = Image.open('圖片路徑和圖片名')
# 識別圖片
print(pytesseract.image_to_string(img))

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

光學字符識別 Tesseract-OCR 的下載、安裝和基本用法

1、下載安裝Tesseract-OCR

2、配置環境變量

3、測試是否成功安裝

4、基本用法

PDManer [元數建模]-v4.9.0 發佈：一款簡單好用的數據庫建模平臺

使用neovim打造go ide(支持代碼跳轉, 代碼補全, 實時語法檢查)

sql求連續值問題

cs01 CSS Syntax

挑戰程序設計競賽 2.3章習題 poj 3046 Ant Counting

[MASM拾遺]Offset僞指令

h30 HTML Layout Elements

瞭解顯卡

一款基於C#開發的通訊調試工具（支持Modbus RTU、MQTT調試）

Linux/Golang/glibC系統調用

Python 數據分析三劍客之 NumPy（一）：理解 NumPy，數組基礎

【Python 技巧】[i for i in range(1,10)] — 列表解析式，列表中使用 for 循環

【Python 標準庫】安全哈希與摘要算法庫 — hashlib

【Python 標準庫】時間相關的函數庫 — time

【Python 標準庫】僞隨機數生成庫 — random

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結