tesseract-ocr 4.0 安裝及使用

Tesseract-ocr 4.0安裝及使用

主要介紹linux,windows操作系統下的安裝,後續補充macos。
簡單介紹一下引擎的安裝及使用,因爲最近做的項目用到圖片文本識別,於是從win10切換到ubuntu,都進行了安裝。下一篇和大家分享在python使用tesseract。

目錄

Tesseract-ocr 4.0介紹

  • 2006年google負責研發這個引擎並開源
  • 目前穩定版本是3.05, 4.0仍處於研發
  • 4.0加入了基於LSTM的神經網絡技術,提升了準確率
  • 別的就不介紹了可以看這個鏈接——[各版本說明]

ubuntu16.04

  1. 下載及安裝

    這裏採用的是第三方軟件——[安裝說明]

    terminal執行如下命令

    • sudo add-apt-repository ppa:alex-p/tesseract-ocr (添加軟件源)
      這裏寫圖片描述

    • sudo apt-get update (更新)

    • sudo apt-get install tesseract-ocr (安裝)
      這裏寫圖片描述

    • 測試安裝是否成功: tesseract –version
      這裏寫圖片描述

    • 使用測試 : tesseract imagename|stdin outputbase|stdout [options…] [configfile…]

      • imagename-文件路徑
      • outputbase-輸出路徑
      • options-可選控制參數
        • 語言,引擎等
      • configfile-配置

        使用測試

    • 字庫文件tessdata下載
      直接安裝的字庫文件,默認在 /usr/share/tesseract-ocr /4.0/tessdata目錄下,貌似只有英文的吧,明顯不夠用呀,於是下載字庫文件添加到這個目錄下。 [下載鏈接]

win10

  1. 下載 [github鏈接]

    這裏寫圖片描述

    選擇第一個鏈接下載exe文件,點擊安裝。
    查看tessdata,有沒有完整的字庫文件,沒有下載呀。 [下載鏈接]

    安裝好以後,進入安裝目錄測試。
    因爲在ubuntu下寫的呀,就沒有截圖,後續補充!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章