安裝
github地址:https://github.com/tesseract-ocr/tesseract
由於測試是在win7環境下進行,我們選用Mannheim University包裝過的版本
github地址:https://github.com/UB-Mannheim/tesseract/wiki
默認語言只支持英語,由於我們識別的是中文,我們需要下載中文模型包
github地址:https://github.com/tesseract-ocr/tessdata
找到並下載chi_sim.traineddata
運行
例如,要識別的圖片爲d:/test.png
打開命令行,切換到tesseract-ocr根目錄,運行
tesseract d:/test.png test -l chi_sim+eng
生成的test.txt即爲識別結果
測試
測試1:手機拍攝帶角度圖片
測試2:手機拍攝帶陰影圖片
測試3:PDF轉換的PNG圖片,中文包含古文
測試4:PDF轉換的PNG圖片,英文與中文
結論
測試名稱 | 總字數 | 錯誤數 | 正確率 |
---|---|---|---|
測試1 | 184 | 16 | 91.3% |
測試2 | 184 | 108 | 41.3% |
測試3 | 935 | 71 | 92.4% |
測試4 | 407 | 12 | 97.1% |
1.Tesseract-OCR內置的預處理模塊對於旋轉、陰影並不能很好處理,特別是陰影
2.Tesseract-OCR對於古文識別率較低