兩行代碼搞定python OCR圖像文字識別

原創

暮之雪

2019-03-22 19:59

目前OCR主要依賴幾個低層庫，本博客採用Tesseract，Tesseract是由Google維護的開源OCR。本博客在windows環境進行，linux環境同理。

1、安裝Tesseract：

windows下Tesseract的安裝比較簡單，下載exe然後一直next下去就行了。但是由於要做中文的識別，所以一定在安裝的時候要勾選相應的中文庫，這個安裝時是默認不下載的。

2、安裝pytesseract

pytesseract是對tesseract做的一層Python API封裝。

pip3 install pytesseract

3、編寫py代碼：

import pytesseract
from PIL import Image

pytesseract.pytesseract.tesseract_cmd = 'D://ocr/Tesseract-OCR/tesseract.exe'
text = pytesseract.image_to_string(Image.open('D://ocr/qximg/test1.png'),lang='chi_sim')

首先導入相應的庫。第一行代碼從正確的位置引入tesseract運行文件。第二行代碼選擇要識別的圖片，設置簡體中文識別。text即爲圖片中中文的內容。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

tesseract-OCR字庫訓練

一、準備工作 1、下載Tesseract-OCR引擎，注意要3.0以上才支持中文哦，按照提示安裝就行。 2、下載chi_sim.traindata字庫。要有這個才能識別中文。下好後，放到Tesseract-OCR項目的tessdata文件

钰061

2020-06-16 14:15:01

使用EmguCV集成的Tesseract-OCR進行光學字符識別

開源代碼：https://github.com/tesseract-ocr/tesseract 簡述：之前是惠普開發的，並在2005年開源出來，2006年，谷歌接手維護。在光學字符識別上算是一個不錯的算法，而且還是開源的。開源項目

IT_BOY__

2020-06-15 05:33:32

基於Tesseract-OCR的空調外包裝表面的字符識別

是我們圖像處理課程的期末考試題，將報告總結一下，寫成博客。 1.python、IDE、opencv的安裝 2.PIL、pytesseract、ocr引擎的安裝與中文庫的使用 3.tesseract的字庫訓練目的：在空調生產出廠時

@Davi

2020-06-30 01:15:33

Tesseract-OCR 4.1 LSTM訓練方法

曾參考此處->：https://blog.csdn.net/qq_30110069/article/details/98742701 Tesseract-OCR 4.1 LSTM訓練流程 (win10環境) 一、配置tessera

胡椒面er

2020-06-22 00:16:35

tesseract編譯成功了

之前，沒有編譯成功，然後放棄了。促使我再次去編譯的原因是，我在Windows server 2008 R2系統上執行命令行時報錯了。後來發現，其實只要給系統裝幾個升級包就可以了，大家可以參考這裏。但還是記錄一下編譯的過程：之前編譯，

OldWang-AI

2020-06-17 11:09:32

tesseract OCR Engine overview字符識別學習

Tesseract的識別步驟大致如下： 1. 連通區域分析； 2. 檢測出字符區域區域（輪廓外形），以及子輪廓； 3. 由字符輪廓，得出文本行，以及通過空格識別出單詞，通過字符單元分割出單個字符，而對百分號的文本（Proporti

5guo

2020-06-16 05:28:19

Google開源OCR項目Tesseract安裝版在Windows下的使用測試記錄

圖像處理開發資料、圖像處理開發需求、圖像處理接私活掙零花錢，可以搜索公衆號"qxsf321"，並關注！圖像處理開發資料、圖像處理開發需求、圖像處理接私活掙零花錢，可以搜索公衆號"qxsf321"，並關注！圖像處理開發資料、圖像處理開發

清溪算法老号

2020-06-07 05:18:54

tesseract v4.0.0 幫助文檔解讀——如何識別單個字符

大熊爷

2020-05-31 15:35:37

Python網絡爬蟲(十六)——Tesseract

止步听风

2020-05-24 20:38:45

Tesseract 3.05.01 文字訓練流程

Glztz

2020-05-22 00:30:05

Tess4J之簡單圖像識別

zhuyc

2020-05-11 17:57:19

深入Python 驗證碼解析

Hi-Jimmy

2020-04-18 14:46:06

Error opening data file ./eng.traineddata

清雨未尽时

2020-03-05 09:11:18

【掃盲】Tesseract訓練

trustguan

2020-03-04 10:42:47

Tesseract-OCR引擎試用 rebuild on vs2012【testing】

hertz158123

2020-02-21 23:45:35

24小時熱門文章

兩行代碼搞定python OCR圖像文字識別

php查詢mysql大量數據頁面訪問失敗

Linux通過beeline連接遠程Hive

Centos基於xampp安裝CACTI

基於dejavu的音頻識別

Windows通過dbeaver連接遠程hive

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結