Tesseract 是一個將圖像翻譯爲文字的 OCR 庫(光學識別系統, Optical Character Recognition)
1 安裝:
Windows
https://code.google.com/p/tesseract-ocr/downloads/list
Linux平臺
sudo apt-get install tesseract-ocr
mac平臺brew install tesseract
2 使用
(1) 在終端中調用:
tesseract test.jpg text
(2) 在python代碼中使用:安裝python庫
pip3 install pytesseract
from PIL import Image
import pytesseract
image = Image.open('test.jpg') # 讀取圖片
image.rotate(45).show() # 將圖片旋轉, 並用系統自帶的圖片工具顯示圖片
result = pytesseract.image_to_string(image) # 將圖像轉爲文字
print(result)