Tesseract-OCR試水

安裝

github地址:https://github.com/tesseract-ocr/tesseract
由於測試是在win7環境下進行,我們選用Mannheim University包裝過的版本
github地址:https://github.com/UB-Mannheim/tesseract/wiki
默認語言只支持英語,由於我們識別的是中文,我們需要下載中文模型包
github地址:https://github.com/tesseract-ocr/tessdata
找到並下載chi_sim.traineddata

運行

例如,要識別的圖片爲d:/test.png
打開命令行,切換到tesseract-ocr根目錄,運行
tesseract d:/test.png test -l chi_sim+eng
生成的test.txt即爲識別結果

測試

測試1:手機拍攝帶角度圖片
在這裏插入圖片描述
在這裏插入圖片描述
測試2:手機拍攝帶陰影圖片
在這裏插入圖片描述
在這裏插入圖片描述
測試3:PDF轉換的PNG圖片,中文包含古文
在這裏插入圖片描述
在這裏插入圖片描述
測試4:PDF轉換的PNG圖片,英文與中文
在這裏插入圖片描述
在這裏插入圖片描述

結論

測試名稱 總字數 錯誤數 正確率
測試1 184 16 91.3%
測試2 184 108 41.3%
測試3 935 71 92.4%
測試4 407 12 97.1%

1.Tesseract-OCR內置的預處理模塊對於旋轉、陰影並不能很好處理,特別是陰影
2.Tesseract-OCR對於古文識別率較低

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章