python 3 的OCR中文字符識別

1. 基本環境

操作系統:win7 64位系統

python版本:3.6

2.安裝配套環境

(1)首先安裝OCR字符識別庫Tesseract    下載網址:https://digi.bib.uni-mannheim.de/tesseract/ 

下載下圖對應的版本

下載後雙擊進行安裝,這裏因爲我們要識別中文字符,所以在安裝界面中需要進行額外的語言勾選,展開Additional language data

然後按照下圖進行勾選

然後點擊next安裝即可(注意:在選擇安裝路徑的時候不要出現中文,並且要記住這個安裝路徑)。我的路徑爲:

D:\toolplace\OCR\Tesseract-OCR

接下來配置環境變量。

通過控制面板找到環境變量配置界面如下(找不到環境變量配置的自行百度):

分別對用戶變量PATH和系統變量Path添加剛纔的安裝目錄  D:\toolplace\OCR\Tesseract-OCR;         這裏注意各個變量之間隔開用英文的分號。

環境變量修改好之後驗證下是否安裝成功。打開cmd命令行工具   敲入命令:

Tesseract -v
出來如下界面說明成功

(2)安裝python環境

pip install Pillow==5.2.0
pip install pytesseract==0.2.4
3.測試

編寫python腳本

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
 
import pytesseract
from PIL import Image
 
# open image
image = Image.open('2.jpg')
code = pytesseract.image_to_string(image, lang='chi_sim')
print(code)
這裏通過讀入圖像2.jpg   然後實現對圖像中的文字進行識別。效果圖如下:

應該說整個識別效果對於規範化的(包括打印掃描)的中文識別還是不錯的(一種方便的應用場景就是先用手機拍照然後qq截圖再進行識別,可以省去重複敲入大量文字的工作)

我後來嘗試了手寫體識別,對於手寫體來說識別效果還有待改進。

完整的測試腳本以及配套的安裝包可以從下面的地址進行下載:

https://download.csdn.net/download/qianbin3200896/10694840
 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章