tesserocr的安裝

原創

2020-02-23 12:43

在爬蟲過程中，難免會遇到各種各樣的驗證碼，而大多數驗證碼還是圖形驗證碼，這時候我們可以直接用OCR來識別。
OCR
OCR，即Optical Character Recognition，光學字符識別，是指通過掃描字符，然後通過其形狀將其翻譯成電子文本的過程。對於圖形驗證碼來說，它們都是一些不規則的字符，這些字符確實是由字符稍加扭曲變換得到的內容。
我們可以使用OCR技術來將其轉化爲電子文本，然後爬蟲將識別結果提交給服務器，便可以達到自動識別驗證碼的過程。
eserocr是Python的一個OCR識別庫，但其實是對tesseract做的一層PythonAPI封裝，所以它的核心是tesseract。因此，在安裝tesserocr之前，我們需要先安裝tesseract。

下載tesseract
官方下載地址，其中在官網列表裏，帶dev的爲開發版本，不帶dev的爲穩定版本。選擇自己需要的版本即可。

解決tesseract下載過慢問題
如果直接在瀏覽器直接下載的話有可能一兩個小時都下載不完，不要問我爲什麼哦，你懂的！如下：

都2020了還幾KB/s，它成功打敗某盤了。這裏大概是有堵“牆”的原因吧。
在這裏我推薦一個工具就可以解決了下載速度過慢，Internet Download Manager這個工具在這就很實用了，速度馬上提了上去，如果你電腦沒有安裝的話，關注微信公衆號”盲點“回覆：IDM工具即可獲取。

安裝tesseract
常規安裝步驟，不過多囉嗦了。
不過，記得勾選以下選項來安裝OCR識別支持的語言包，這樣就可以識別多國語言了。

直接安裝tesserocr
此時直接cmd使用pip進行安裝：

pip install tesserocr

安裝異常處理
有時通過上述方式安裝會出現異常，導致無法進行安裝。這時，可以使用tesserocr的whl文件進行安裝，tesserocr.whl官方下載地址，有whll類型的安裝包還是不夠，還要安裝wheel這個第三方庫才能使用whl文件這個方式進行安裝，如下：

然後進入cmd命令行切換目錄到whl文件下載的地址進行whl文件安裝包安裝：

這樣就安裝成功了！