tesseract-ocr的安裝及使用

OCR (Optical Character Recognition,光學字符識別),是指電子設備(例如掃描儀或數碼相機)檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然後用字符識別方法將形狀翻譯成計算機文字的過程。目前出現很多OCR技術(tesseract-ocr 、百度、騰訊、阿里等有推出OCR技術),但是老的OCR技術還是要了解下,最主要的是tesseract-ocr 開源。

目錄

1.tesseract-ocr下載

2.tesseract-ocr安裝

3.配置環境變量

4.驗證安裝配置


1.tesseract-ocr下載

參考:https://github.com/tesseract-ocr/tesseract 可以找到相關源碼,本文主要介紹安裝包的下載及安裝。

安裝包下載地址:https://digi.bib.uni-mannheim.de/tesseract/

其中文件名中帶有dev的爲開發版本,不帶dev的爲穩定版本,可以選擇下載不帶dev的版本,w64爲Windows 64位操作系統w32是Windows 32位操作系統的安裝包。當然要是電腦是linux系統,可以到debian目錄下找對應版本。

本文以下載Window64位的版本:tesseract-ocr-w64-setup-v5.0.0-alpha.20191030.exe

附百度網盤下載地址:

鏈接:https://pan.baidu.com/s/18hR0dWBjCZjfs__nQ-F8xw 提取碼:3iec

下載比較慢,可以使用IDM工具下載。

IDM工具下載鏈接:https://pan.baidu.com/s/1sAEJowbEfqwuV5mNtyVGDg  提取碼:p4lv

2.tesseract-ocr安裝

下載完成後雙擊:tesseract-ocr-w64-setup-v5.0.0-alpha.20191030.exe

根據嚮導安裝:

記住安裝路徑,後面配置環境變量要用。

3.配置環境變量

a.將安裝目錄(D:\Program Files\Tesseract-OCR)加入path;

b.新增環境變量TESSDATA_PREFIX

4.驗證安裝配置

安裝配置完畢,可以使用這個命令:tesseract -v 

確認安裝的版本,如下圖:表示安裝正確。

用命令:tesseract --list-langs

查看Tesseract-OCR支持語言。

關於支持的語音,可以通過訓練庫來擴展,也可以通過下載庫進行擴展:https://github.com/tesseract-ocr/tessdata

把訓練或者下載好的庫放在TESSDATA_PREFIX指定的路徑下即可。

最後,拿圖片測試:

放置在D盤根目錄,命名爲:screenshot.png

命令:tesseract  D:screenshot.png D:11.txt

可將圖片中的文字提取到D:11.txt。

11.txt內容:

 

發佈了138 篇原創文章 · 獲贊 245 · 訪問量 15萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章