python 3 的OCR中文字符識別

1. 基本環境

操作系統：win7 64位系統

python版本：3.6

2.安裝配套環境

（1）首先安裝OCR字符識別庫Tesseract 下載網址：https://digi.bib.uni-mannheim.de/tesseract/

下載下圖對應的版本

下載後雙擊進行安裝，這裏因爲我們要識別中文字符，所以在安裝界面中需要進行額外的語言勾選，展開Additional language data

然後按照下圖進行勾選

然後點擊next安裝即可（注意：在選擇安裝路徑的時候不要出現中文，並且要記住這個安裝路徑）。我的路徑爲：

D:\toolplace\OCR\Tesseract-OCR

接下來配置環境變量。

通過控制面板找到環境變量配置界面如下（找不到環境變量配置的自行百度）：

分別對用戶變量PATH和系統變量Path添加剛纔的安裝目錄 D:\toolplace\OCR\Tesseract-OCR; 這裏注意各個變量之間隔開用英文的分號。

環境變量修改好之後驗證下是否安裝成功。打開cmd命令行工具敲入命令：

Tesseract -v
出來如下界面說明成功

（2）安裝python環境

pip install Pillow==5.2.0
pip install pytesseract==0.2.4
3.測試

編寫python腳本

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

import pytesseract
from PIL import Image

# open image
image = Image.open('2.jpg')
code = pytesseract.image_to_string(image, lang='chi_sim')
print(code)
這裏通過讀入圖像2.jpg 然後實現對圖像中的文字進行識別。效果圖如下：

應該說整個識別效果對於規範化的（包括打印掃描）的中文識別還是不錯的（一種方便的應用場景就是先用手機拍照然後qq截圖再進行識別，可以省去重複敲入大量文字的工作）

我後來嘗試了手寫體識別，對於手寫體來說識別效果還有待改進。

完整的測試腳本以及配套的安裝包可以從下面的地址進行下載：

https://download.csdn.net/download/qianbin3200896/10694840

python 3 的OCR中文字符識別

Spring 自帶內存緩存配置，校驗密碼輸入次數鎖定賬戶10分鐘(一)

python 3 的OCR中文字符識別

nmon 使用筆記，監控性能資源分析數據

TestDom讀取XML文件解析DOM

python wx加載進度條，線程執行

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結