win10 安裝tesseract+tesserocr+pycharm導入tesserocr,各種問題+解決辦法

win10 安裝tesseract+tesserocr+pycharm導入tesserocr,各種問題+解決辦法

我的環境是 python 3.66

安裝tesseract

  1. 在Windows下,首先需要下載tesseract,它爲tesserocr提供了支持。

    安裝Tesseract是前提,參考https://blog.csdn.net/YYHEZB/article/details/80846722,這位博主寫得蠻清楚的,引用一下

            遇到的問題:版本沒對上,導致安裝失敗,Tesseract和tesserocr是搭配使用的,版本也有對應要求的

    下載地址是 https://digi.bib.uni-mannheim.de/tesseract/ 

  • 進入下載頁面,可以看到有各種.exe文件的下載列表,其中文件名中帶有dev的爲開發版本,不帶dev的爲穩定版本,我自己選擇下載的是
    tesseract-ocr-w64-setup-v4.0.0-beta.4.20180912.exe
  • 下載完成後雙擊,安裝路徑  D:\Program Files (x86)\Tesseract-OCR
  • 此時會出現以下界面,此時可以勾選Additional language data(download)選項來安裝OCR識別支持的語言包,這樣OCR便可以識別多國語言,語言較多,下載時間會比較長,請耐心等待,然後一路點擊Next按鈕即可。 
  1. 配置相應的環境變量

    搜索"環境變量“,找到用戶變量和系統變量 兩個【Path】項點開,都添加剛纔拷貝的Tesseract 的安裝路徑 D:\Program Files (x86)\Tesseract-OCR 

  2. 如下圖所示:

    加入的值就是上面tesseract安裝後所在的目錄

  3. 再找到【系統變量】,新建一個變量名稱爲:TESSDATA_PREFIX 
    值爲:剛纔路徑加上 \tessdata     D:\Program Files (x86)\Tesseract-OCR\tessdata

  4.  

     

  5. 設置完環境變量後,以管理員身份 打開cmd窗口,看能否識別tesseract,輸入命令tesseract -v

  6.  

    記得是管理員身份 打開cmd窗口,否則後面安裝可能出問題。

安裝tesserocr

  1. 使用pip命令安裝

    pip install tesserocr pillow

    安裝過程中出現如下錯誤:

    解決辦法是:

    • 打開鏈接https://github.com/simonflueckiger/tesserocr-windows_build/releases
    • 下載tesserocr-2.2.2-cp36-cp36m-win_amd64.whl 文件
    • 然後在cmd命令行中 切換到該目錄執行pip install tesserocr-2.2.2-cp36-cp36m-win_amd64.whl,爲防止其他問題產生,最好用管理員身份打開cmd窗口,如下圖所示即爲安裝成功

    測試

    1. 在cmd裏面執行python命令import  tesserocr,然後看能否正常導入tesserocr

    2. 下載需要識別的圖片,比如這個test.jpg https://xpwi.github.io/Photos/p/test.jpg 

    3. 放在一個好找的目錄,最好是 D:\Downloads 這樣的

    4.  直接通過cmd命令行方式進行識別操作,需要注意的是img要在執行命令行時,所在的目錄,比如下圖所示我的圖片是放在D:\Downloads的,所以我要先切換到D:\Downloads然後執行以下命令

    5.  打開 cmd 進入該圖片的文件夾 

    6. 使用 cd 目錄名 進入目錄

    7. 使用 cd.. 返回上一級目錄

    8. 輸入: tesseract test.jpg output_1 –l eng

中文識別

tesseract test1.jpg result -l chi_sim

這個帶噪點的還行

  1. 也可以在py中識別,要把test.jpg 和代碼放在同一個目錄下,如果不是在同一個目錄下需要修改open中的路徑,需要注意的是如果是在pycharm中的話,要配置正確的python解析器,如果配置正確而且命令行中能正常導入的話,請重啓pycharm,待包全部加載完畢之後,再次進行測試
  2.  

    import tesserocr

    from PIL import Image

    image = Image.open('test.jpg')

    result = tesserocr.image_to_text(image)

    print(result)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章