Tesseract-ocr 4.0安裝及使用
主要介紹linux,windows操作系統下的安裝,後續補充macos。
簡單介紹一下引擎的安裝及使用,因爲最近做的項目用到圖片文本識別,於是從win10切換到ubuntu,都進行了安裝。下一篇和大家分享在python使用tesseract。
目錄
Tesseract-ocr 4.0介紹
- 2006年google負責研發這個引擎並開源
- 目前穩定版本是3.05, 4.0仍處於研發
- 4.0加入了基於LSTM的神經網絡技術,提升了準確率
- 別的就不介紹了可以看這個鏈接——[各版本說明]
ubuntu16.04
下載及安裝
這裏採用的是第三方軟件——[安裝說明]
terminal執行如下命令
sudo add-apt-repository ppa:alex-p/tesseract-ocr (添加軟件源)
sudo apt-get update (更新)
sudo apt-get install tesseract-ocr (安裝)
測試安裝是否成功: tesseract –version
使用測試 : tesseract imagename|stdin outputbase|stdout [options…] [configfile…]
- imagename-文件路徑
- outputbase-輸出路徑
- options-可選控制參數
- 語言,引擎等
configfile-配置
字庫文件tessdata下載
直接安裝的字庫文件,默認在 /usr/share/tesseract-ocr /4.0/tessdata目錄下,貌似只有英文的吧,明顯不夠用呀,於是下載字庫文件添加到這個目錄下。 [下載鏈接]
win10
下載 [github鏈接]
選擇第一個鏈接下載exe文件,點擊安裝。
查看tessdata,有沒有完整的字庫文件,沒有下載呀。 [下載鏈接]安裝好以後,進入安裝目錄測試。
因爲在ubuntu下寫的呀,就沒有截圖,後續補充!