Google開源OCR項目Tesseract安裝版在Windows下的使用測試記錄

原創

清溪算法老号

2020-06-07 05:18

圖像處理開發資料、圖像處理開發需求、圖像處理接私活掙零花錢，可以搜索公衆號"qxsf321"，並關注！
圖像處理開發資料、圖像處理開發需求、圖像處理接私活掙零花錢，可以搜索公衆號"qxsf321"，並關注！
圖像處理開發資料、圖像處理開發需求、圖像處理接私活掙零花錢，可以搜索公衆號"qxsf321"，並關注！

開源OCR項目有很多，給大家一個鏈接，這個鏈接列出了現有的比較出名的OCR開源項目，鏈接如下：

https://en.wikipedia.org/wiki/Comparison_of_optical_character_recognition_software

從上面的排名可以看到，Tesseract是排在第一名的，所以咱們就先研究和測試它吧！

首先下載Tesseract在Windows下的安裝版。(因爲在國外訪問不了谷歌，所以我翻牆下載了下來，這裏給大家百度網盤鏈接)

http://pan.baidu.com/s/1i56Uxlr

下載下來之後一路Next安裝好，然後在開始菜單找到其控制檯引導程序，如下圖所示：

上面的安裝包裏自帶了已經訓練好的英文-拉丁文識別數據~所以我們先來測試一下英文字符的識別吧~識別圖像如下：

上面這幅圖片的下載鏈接：http://pan.baidu.com/s/1c9k4X4

把上面的圖片放到Tesseract的安裝目錄下，如下圖所示：

然後打開上面提到的控制檯窗口，如下圖所示：

在窗口中輸入命令：“tesseract.exe 03.jpg 3”，並回車，如下圖所示：

解釋一下：03.jpg代表待識別的源文件，3代表輸出文件名，默認輸出格式是txt文件格式！

如果你不知道命令的參數格式，可以像下面這樣查詢：

注意，上面的 lang之前是-l 而不是-1！

輸入命令“tesseract.exe 03.jpg 3”後，在安裝目錄下生成了3.txt文件，這是識別結果，如下圖所示：

可見，對英文字符的識別率還是挺不錯的。

接下來，我們測試下對中文的識別。首先要把中文訓練數據放到目錄C:\Program Files (x86)\Tesseract-OCR\tessdata 下邊，如下圖所示：

圖片中的chi_tra.traineddata下載鏈接：http://pan.baidu.com/s/1nvaYhJz

然後在目錄中放入測試圖片04.jpg 05.jpg 這兩幅圖的下載鏈接爲：http://pan.baidu.com/s/1qXUMwOk

如下圖所示：

　　

然後在CMD窗口中分別輸入如下命令：

tesseract.exe 04.jpg 5 -l chi_tra

tesseract.exe 05.jpg 5_2 -l chi_tra

運行結果如下圖所示：

可見，結果非常不理想，所以接下來的任務就是要研究怎樣提高識別率了，當然這是後話了，本文就先寫到這樣！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

tesseract-OCR字庫訓練

一、準備工作 1、下載Tesseract-OCR引擎，注意要3.0以上才支持中文哦，按照提示安裝就行。 2、下載chi_sim.traindata字庫。要有這個才能識別中文。下好後，放到Tesseract-OCR項目的tessdata文件

2020-06-16 14:15:01

JAVA使用Tess4J進行ocr識別

文章引自：https://www.cnblogs.com/pejsidney/p/9487881.html Tess4J是對Tesseract OCR API.的Java JNA 封裝。使java能夠通過調用Tess4J的API來使用T

2022-04-30 12:01:45

Java 幾行代碼提取圖片文字，過個厲害了。。

來源：blog.csdn.net/weixin_44671737/article/details/110000864 摘要近日瀏覽網上一些圖片提取文字的網站，覺得甚是有趣，花費半日也做了個在線圖片識別程序，完成了兩個技術方案的選擇，一是t

2021-10-18 21:29:58

編譯Tesseract5.0+VS2019+SW

2021-03-24 21:14:14

[Tesseract報錯及解決方法]Error in findFileFormat: image file not found

侯叔叔——2021.1.18 今天在學習OCR文檔實戰掃描時，在用Tesseract讀圖時，遇見了圖一的報錯：在思考了一下和嘗試了很多次後，發現問題的解決方法：圖片的所在位置必須與你當前進入的盤的位置相同！（如圖，圖片必須直接在D盤中

2021-01-30 10:35:30

基於Tesseract-OCR的空調外包裝表面的字符識別

是我們圖像處理課程的期末考試題，將報告總結一下，寫成博客。 1.python、IDE、opencv的安裝 2.PIL、pytesseract、ocr引擎的安裝與中文庫的使用 3.tesseract的字庫訓練目的：在空調生產出廠時

2020-06-30 01:15:33

Tesseract-OCR 4.1 LSTM訓練方法

曾參考此處->：https://blog.csdn.net/qq_30110069/article/details/98742701 Tesseract-OCR 4.1 LSTM訓練流程 (win10環境) 一、配置tessera

2020-06-22 00:16:35

tesseract編譯成功了

之前，沒有編譯成功，然後放棄了。促使我再次去編譯的原因是，我在Windows server 2008 R2系統上執行命令行時報錯了。後來發現，其實只要給系統裝幾個升級包就可以了，大家可以參考這裏。但還是記錄一下編譯的過程：之前編譯，

2020-06-17 11:09:32

tesseract v4.0.0 幫助文檔解讀——如何識別單個字符

2020-05-31 15:35:37

Python網絡爬蟲(十六)——Tesseract

2020-05-24 20:38:45

Tesseract 3.05.01 文字訓練流程

2020-05-22 00:30:05

Tess4J之簡單圖像識別

2020-05-11 17:57:19

Error opening data file ./eng.traineddata

清雨未尽时

2020-03-05 09:11:18

【掃盲】Tesseract訓練

2020-03-04 10:42:47

linux安裝tesseract

2019-12-26 12:53:37

24小時熱門文章

最新文章

最新評論文章