Google開源OCR項目Tesseract安裝版在Windows下的使用測試記錄

圖像處理開發資料、圖像處理開發需求、圖像處理接私活掙零花錢,可以搜索公衆號"qxsf321",並關注!
圖像處理開發資料、圖像處理開發需求、圖像處理接私活掙零花錢,可以搜索公衆號"qxsf321",並關注!
圖像處理開發資料、圖像處理開發需求、圖像處理接私活掙零花錢,可以搜索公衆號"qxsf321",並關注!

 

開源OCR項目有很多,給大家一個鏈接,這個鏈接列出了現有的比較出名的OCR開源項目,鏈接如下:

https://en.wikipedia.org/wiki/Comparison_of_optical_character_recognition_software

從上面的排名可以看到,Tesseract是排在第一名的,所以咱們就先研究和測試它吧!

首先下載Tesseract在Windows下的安裝版。(因爲在國外訪問不了谷歌,所以我翻牆下載了下來,這裏給大家百度網盤鏈接)

http://pan.baidu.com/s/1i56Uxlr

下載下來之後一路Next安裝好,然後在開始菜單找到其控制檯引導程序,如下圖所示:

上面的安裝包裏自帶了已經訓練好的英文-拉丁文識別數據~所以我們先來測試一下英文字符的識別吧~識別圖像如下:

上面這幅圖片的下載鏈接:http://pan.baidu.com/s/1c9k4X4

把上面的圖片放到Tesseract的安裝目錄下,如下圖所示:

然後打開上面提到的控制檯窗口,如下圖所示:

在窗口中輸入命令:“tesseract.exe 03.jpg 3”,並回車,如下圖所示:

解釋一下:03.jpg代表待識別的源文件,3代表輸出文件名,默認輸出格式是txt文件格式!

如果你不知道命令的參數格式,可以像下面這樣查詢

注意,上面的 lang之前是-l 而不是-1!

輸入命令“tesseract.exe 03.jpg 3”後,在安裝目錄下生成了3.txt文件,這是識別結果,如下圖所示:

可見,對英文字符的識別率還是挺不錯的。

接下來,我們測試下對中文的識別首先要把中文訓練數據放到目錄C:\Program Files (x86)\Tesseract-OCR\tessdata 下邊,如下圖所示:

圖片中的chi_tra.traineddata下載鏈接:http://pan.baidu.com/s/1nvaYhJz

然後在目錄中放入測試圖片04.jpg 05.jpg 這兩幅圖的下載鏈接爲:http://pan.baidu.com/s/1qXUMwOk

如下圖所示:

  

然後在CMD窗口中分別輸入如下命令

tesseract.exe 04.jpg 5 -l chi_tra

tesseract.exe 05.jpg 5_2 -l chi_tra

運行結果如下圖所示:

 

可見,結果非常不理想,所以接下來的任務就是要研究怎樣提高識別率了,當然這是後話了,本文就先寫到這樣!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章