Python 圖片識別 OCR

Python 圖片識別 OCR

#1 需求

  • 識別圖片中的信息,如二維碼

#2 環境

macOS / Linux
Python3.7.6

#3 安裝

#3.1 macOS

  1. 安裝 tesseract
//只安裝tesseract,不安裝訓練工具
brew install tesseract
 
//安裝tesseract的同時安裝訓練工具
brew install --with-training-tools tesseract
 
//安裝tesseract的同時安裝所有語言,語言包比較大,如果安裝的話時間較長,建議不安裝,按需選擇
brew install  --all-languages tesseract
 
//安裝tesseract,並安裝訓練工具和語言
brew install --all-languages --with-training-tools tesseract 
  1. 下載語言包

地址 : https://github.com/tesseract-ocr/tessdata

我這裏安裝的是中文語言包

中文語言包 : https://github.com/tesseract-ocr/tessdata/blob/master/chi_sim.traineddata

然後將下載的中文語言包拷貝到如下路徑 :

/usr/local/Cellar/tesseract/4.0.0_1/share/tessdata

  1. 查看本地語言包
tesseract --list-langs

#3.2 Linux(CentOS)

  1. 安裝依賴
yum install autoconf automake libtool libjpeg-devel libpng-devel libtiff-devel zlib-devel
  1. 安裝 leptonica

下載 : wget https://github.com/tesseract-ocr/tesseract/archive/4.1.0.tar.gz

解壓安裝

tar -xzvf leptonica-1.74.4.tar.gz
cd leptonica-1.74.4.tar.gz
./configure --profix=/usr/local/leptonica
make
sudo make install
  1. 安裝 tesseract-ocr
wget https://github.com/tesseract-ocr/tesseract/archive/3.04.zip
unzip 3.04.zip
cd tesseract-3.04/
./configure
make && make install
sudo ldconfig

我這裏安裝的是中文語言包

中文語言包 : https://github.com/tesseract-ocr/tessdata/blob/master/chi_sim.traineddata

然後將下載的中文語言包拷貝到如下路徑 :

/usr/local/share/tessdata

#4 使用

#4.1 python安裝pytesseract庫

pip install pytesseract
pip install Pillow

#4.2 Python代碼

from PIL import Image
import pytesseract
 
# 指定圖片路徑和識別的語言
data = pytesseract.image_to_string(Image.open('/Users/Documents/1.png'), lang='chi_sim')
print(data)

#5 在線案例

地址 :

http://admin.minhung.me:20420/#/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章