光學字符識別 Tesseract-OCR 的下載、安裝和基本用法

OCR:即Optical Character Recognition,光學字符識別,是指檢查紙或者圖片上打印的字符,通過檢測暗、亮的模式確定其形狀,然後用字符識別方法將形狀翻譯成計算機文字的過程;

Tesseract-OCR:一款由HP實驗室(惠普布里斯托實驗室)開發,由Google維護的開源OCR引擎,可以經過不斷的訓練,增強圖像轉換文本的能力,Tesseract-OCR 也經常被用於Python爬蟲的驗證碼識別

1、下載安裝Tesseract-OCR

官方GitHub地址:https://github.com/tesseract-ocr/

下載地址一:https://github.com/UB-Mannheim/tesseract/wiki (僅Windows操作系統,最新版本)
下載地址二:https://digi.bib.uni-mannheim.de/tesseract/ (僅Windows操作系統,歷史版本)
下載地址三:https://github.com/tesseract-ocr/tesseract/wiki (其他操作系統)

以下以 V5.0.0 版本爲例進行安裝,雙擊 tesseract-ocr-w64-setup-v5.0.0-alpha.20190708.exe 安裝程序,基本上一直next就OK了,注意要勾選 Additional language data(download) 安裝OCR識別支持的語言包
01
02
03
在這裏勾選 Additional language data(download) ,安裝OCR識別支持的語言包,在安裝語言包時會比較慢,所以建議不要全選,根據需要選擇即可,若後期需要增加語言包,可在官網下載後放到Tesseract-OCR\tessdata\tessconfigs目錄下即可,不同版本的對應的語言包也不同,下載地址:https://github.com/tesseract-ocr/tesseract/wiki/Data-Files#data-files-for-version-302
05
06

2、配置環境變量

依次右鍵【此電腦】-【屬性】-【高級系統設置】-【環境變量】,在【系統變量】裏找到【Path】變量,選擇【編輯】-【新建】,將你的Tesseract-OCR安裝路徑填寫進去,比如我的是:E:\Tesseract-OCR,點擊確定保存即可
07

3、測試是否成功安裝

打開cmd,輸入 tesseract 會顯示一些 Tesseract-OCR 相關用法提示,輸入 tesseract -v 可以查看到 Tesseract-OCR 的版本信息,說明此時安裝成功
08
09

4、基本用法

完整命令:tesseract 圖片路徑和圖片名 結果路徑和結果名 -l 語言
舉例:tesseract F:\code\test.png F:\code\result -l eng
注意:
1、需要識別的圖片要加後綴
2、結果文件名不需要加後綴,會自動加後綴,生成的是txt文件
3、-l 是英文字母l,不是數字1,language 語言的意思,不加默認英文
4、eng 表示英文,chi_sim 表示簡體中文
5、將cmd切換到要識別圖片的文件夾後,就不用加圖片路徑
03
在 Python 中使用:(需要安裝 pytesseract 庫)

import pytesseract
from PIL import Image

# 打開圖片
img = Image.open('圖片路徑和圖片名')
# 識別圖片
print(pytesseract.image_to_string(img))
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章