Python3.6使用tesseract-ocr的正確姿勢

環境

安裝

1.tesseract-orc

Tesseract:開源的OCR識別引擎,初期Tesseract引擎由HP實驗室研發,後來貢獻給了開源軟件業,後經由Google進行改進,消除bug,優化,重新發布。

安裝的時候需要自行選擇安裝的語言,一些其他國家的語言可以不選擇安裝,我之按安裝了中文,英文和日語。安裝過程和其他軟件一樣。

2.pytesseract

pip install pytesseract

配置環境

1.設置 tesseract-orc路徑

默認情況下tesseract-orc是不被添加到系統的path路徑的,這樣在使用的時候發生FileNotFoundError: [WinError 2] 系統找不到指定的文件錯誤。

解決方法:
* 方法1:將 C:\Program Files (x86)\Tesseract-OCR添加到系統路徑(路徑因安裝過程而異)
* 方法2:修改pytesseract.py文件,修改方法如下
image.png

  1. 設置訓練集的位置

下載的默認訓練集也沒有添加到系統路徑,會報錯pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\tessdata/chi_sim.traineddata')

解決方法:
設置環境變量 TESSDATA_PREFIX
C:\Program Files (x86)\Tesseract-OCR\tessdata

實例程序

import pytesseract
from PIL import Image

image = Image.open('test.png')
code = pytesseract.image_to_string(image)
print(code)

更多參考:https://pypi.python.org/pypi/pytesseract

發佈了163 篇原創文章 · 獲贊 41 · 訪問量 20萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章