1. 基本環境
操作系統:win7 64位系統
python版本:3.6
2.安裝配套環境
(1)首先安裝OCR字符識別庫Tesseract 下載網址:https://digi.bib.uni-mannheim.de/tesseract/
下載下圖對應的版本
下載後雙擊進行安裝,這裏因爲我們要識別中文字符,所以在安裝界面中需要進行額外的語言勾選,展開Additional language data
然後按照下圖進行勾選
然後點擊next安裝即可(注意:在選擇安裝路徑的時候不要出現中文,並且要記住這個安裝路徑)。我的路徑爲:
D:\toolplace\OCR\Tesseract-OCR
接下來配置環境變量。
通過控制面板找到環境變量配置界面如下(找不到環境變量配置的自行百度):
分別對用戶變量PATH和系統變量Path添加剛纔的安裝目錄 D:\toolplace\OCR\Tesseract-OCR; 這裏注意各個變量之間隔開用英文的分號。
環境變量修改好之後驗證下是否安裝成功。打開cmd命令行工具 敲入命令:
Tesseract -v
出來如下界面說明成功
(2)安裝python環境
pip install Pillow==5.2.0
pip install pytesseract==0.2.4
3.測試
編寫python腳本
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
import pytesseract
from PIL import Image
# open image
image = Image.open('2.jpg')
code = pytesseract.image_to_string(image, lang='chi_sim')
print(code)
這裏通過讀入圖像2.jpg 然後實現對圖像中的文字進行識別。效果圖如下:
應該說整個識別效果對於規範化的(包括打印掃描)的中文識別還是不錯的(一種方便的應用場景就是先用手機拍照然後qq截圖再進行識別,可以省去重複敲入大量文字的工作)
我後來嘗試了手寫體識別,對於手寫體來說識別效果還有待改進。
完整的測試腳本以及配套的安裝包可以從下面的地址進行下載:
https://download.csdn.net/download/qianbin3200896/10694840