ocr踩坑記錄

ocr踩坑記錄

原創

番茄西瓜汤

2020-06-21 18:18

本人最近想試試ocr的識別效果所以在win安裝了一下tesserocr ，其中有一些坑寫出來，供大家參考。

首先在 linux上面安裝貌似沒有太多的坑直接運行代碼 pip install tesserocr 詳情請看參考官網地址：tesserocr官網
在 Windows 下，首先需要下載 tesseract，它爲 tesserocr 提供了支持。進入下載頁面，可以看到有各種 .exe 文件的下載列表，這裏可以選擇下載 3.0 版本。如下圖所示爲 3.05 版本。下載鏈接

其中文件名中帶有 dev 的爲開發版本，不帶 dev 的爲穩定版本，可以選擇下載不帶 dev 的版本，例如圖中紅色框中的文件。一路下一步執行，注意!!! 在最後一步的時候需要選擇 Additional language data(download）選項來安裝 OCR 識別支持的語言包，這樣 OCR 便可以識別多國語言。
至此我們完成了一大半了，把安裝好的文件路徑添加到環境變量中，注意在最後用一個 ; 號結尾，如下圖所示：
然後安裝 tesserocr ，直接pip命令下載會報錯，讓你去安裝一些什麼c++的環境？，這樣顯得太麻煩了，那麼我們可不可以簡單一點呢？，當然，這是沒問題的，首先我們先下載對應的.whl文件
下載地址 : https://github.com/simonflueckiger/tesserocr-windows_build/releases 一定要下載對應版本的，我的是4.0.0，讀者可自行選擇。

然後執行命名 pip install E:\code\tesserocr-2.4.0-cp37-cp37m-win_amd64.whl ，install 後面的命令是你下載文件的絕對路徑，用自己的即可。
到此我們可以運行代碼嘗試，發現報錯，如下圖所示：

這裏還是因爲環境的問題導致，我們只需要把下載的 tesseract 文件夾下面的 tessdata 複製放在python的運行環境下即可，我的環境在 Anaconda3 下面，所以我放在他的目錄下，入下圖所示：
第一步： 複製紅色框文件。

第二步： 粘貼到 Anaconda3 目錄下。
我們試試運行程序，發現大功告成，至此