win10 安裝tesseract+tesserocr+pycharm導入tesserocr,各種問題+解決辦法
我的環境是 python 3.66
安裝tesseract
-
在Windows下,首先需要下載tesseract,它爲tesserocr提供了支持。
安裝Tesseract是前提,參考https://blog.csdn.net/YYHEZB/article/details/80846722,這位博主寫得蠻清楚的,引用一下
遇到的問題:版本沒對上,導致安裝失敗,Tesseract和tesserocr是搭配使用的,版本也有對應要求的
- 進入下載頁面,可以看到有各種.exe文件的下載列表,其中文件名中帶有dev的爲開發版本,不帶dev的爲穩定版本,我自己選擇下載的是
tesseract-ocr-w64-setup-v4.0.0-beta.4.20180912.exe - 下載完成後雙擊,安裝路徑 D:\Program Files (x86)\Tesseract-OCR
- 此時會出現以下界面,此時可以勾選Additional language data(download)選項來安裝OCR識別支持的語言包,這樣OCR便可以識別多國語言,語言較多,下載時間會比較長,請耐心等待,然後一路點擊Next按鈕即可。
-
配置相應的環境變量
搜索"環境變量“,找到用戶變量和系統變量 兩個【Path】項點開,都添加剛纔拷貝的Tesseract 的安裝路徑 D:\Program Files (x86)\Tesseract-OCR
-
如下圖所示:
加入的值就是上面tesseract安裝後所在的目錄
-
再找到【系統變量】,新建一個變量名稱爲:TESSDATA_PREFIX
值爲:剛纔路徑加上 \tessdata D:\Program Files (x86)\Tesseract-OCR\tessdata -
-
設置完環境變量後,以管理員身份 打開cmd窗口,看能否識別tesseract,輸入命令tesseract -v
-
記得是管理員身份 打開cmd窗口,否則後面安裝可能出問題。
安裝tesserocr
-
使用pip命令安裝
pip install tesserocr pillow
安裝過程中出現如下錯誤:
解決辦法是:
- 打開鏈接https://github.com/simonflueckiger/tesserocr-windows_build/releases
- 下載tesserocr-2.2.2-cp36-cp36m-win_amd64.whl 文件
- 然後在cmd命令行中 切換到該目錄執行pip install tesserocr-2.2.2-cp36-cp36m-win_amd64.whl,爲防止其他問題產生,最好用管理員身份打開cmd窗口,如下圖所示即爲安裝成功
測試
-
在cmd裏面執行python命令import tesserocr,然後看能否正常導入tesserocr
-
下載需要識別的圖片,比如這個test.jpg https://xpwi.github.io/Photos/p/test.jpg
-
放在一個好找的目錄,最好是 D:\Downloads 這樣的
-
直接通過cmd命令行方式進行識別操作,需要注意的是img要在執行命令行時,所在的目錄,比如下圖所示我的圖片是放在D:\Downloads的,所以我要先切換到D:\Downloads然後執行以下命令
-
打開 cmd 進入該圖片的文件夾
-
使用 cd 目錄名 進入目錄
-
使用 cd.. 返回上一級目錄
-
輸入: tesseract test.jpg output_1 –l eng
中文識別
tesseract test1.jpg result -l chi_sim
這個帶噪點的還行
- 也可以在py中識別,要把test.jpg 和代碼放在同一個目錄下,如果不是在同一個目錄下需要修改open中的路徑,需要注意的是如果是在pycharm中的話,要配置正確的python解析器,如果配置正確而且命令行中能正常導入的話,請重啓pycharm,待包全部加載完畢之後,再次進行測試
-
import tesserocr
from PIL import Image
image = Image.open('test.jpg')
result = tesserocr.image_to_text(image)
print(result)