OCR (Optical Character Recognition,光學字符識別),是指電子設備(例如掃描儀或數碼相機)檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然後用字符識別方法將形狀翻譯成計算機文字的過程。目前出現很多OCR技術(tesseract-ocr 、百度、騰訊、阿里等有推出OCR技術),但是老的OCR技術還是要了解下,最主要的是tesseract-ocr 開源。
目錄
1.tesseract-ocr下載
參考:https://github.com/tesseract-ocr/tesseract 可以找到相關源碼,本文主要介紹安裝包的下載及安裝。
安裝包下載地址:https://digi.bib.uni-mannheim.de/tesseract/
其中文件名中帶有dev的爲開發版本,不帶dev的爲穩定版本,可以選擇下載不帶dev的版本,w64爲Windows 64位操作系統w32是Windows 32位操作系統的安裝包。當然要是電腦是linux系統,可以到debian目錄下找對應版本。
本文以下載Window64位的版本:tesseract-ocr-w64-setup-v5.0.0-alpha.20191030.exe
附百度網盤下載地址:
鏈接:https://pan.baidu.com/s/18hR0dWBjCZjfs__nQ-F8xw 提取碼:3iec
下載比較慢,可以使用IDM工具下載。
IDM工具下載鏈接:https://pan.baidu.com/s/1sAEJowbEfqwuV5mNtyVGDg 提取碼:p4lv
2.tesseract-ocr安裝
下載完成後雙擊:tesseract-ocr-w64-setup-v5.0.0-alpha.20191030.exe
根據嚮導安裝:
記住安裝路徑,後面配置環境變量要用。
3.配置環境變量
a.將安裝目錄(D:\Program Files\Tesseract-OCR)加入path;
b.新增環境變量TESSDATA_PREFIX
4.驗證安裝配置
安裝配置完畢,可以使用這個命令:tesseract -v
確認安裝的版本,如下圖:表示安裝正確。
用命令:tesseract --list-langs
查看Tesseract-OCR支持語言。
關於支持的語音,可以通過訓練庫來擴展,也可以通過下載庫進行擴展:https://github.com/tesseract-ocr/tessdata
把訓練或者下載好的庫放在TESSDATA_PREFIX指定的路徑下即可。
最後,拿圖片測試:
放置在D盤根目錄,命名爲:screenshot.png
命令:tesseract D:screenshot.png D:11.txt
可將圖片中的文字提取到D:11.txt。
11.txt內容: