tesserocr的安裝

在爬蟲過程中,難免會遇到各種各樣的驗證碼,而大多數驗證碼還是圖形驗證碼,這時候我們可以直接用OCR來識別。
OCR
OCR,即Optical Character Recognition,光學字符識別,是指通過掃描字符,然後通過其形狀將其翻譯成電子文本的過程。對於圖形驗證碼來說,它們都是一些不規則的字符,這些字符確實是由字符稍加扭曲變換得到的內容。
我們可以使用OCR技術來將其轉化爲電子文本,然後爬蟲將識別結果提交給服務器,便可以達到自動識別驗證碼的過程。
eserocr是Python的一個OCR識別庫,但其實是對tesseract做的一層PythonAPI封裝,所以它的核心是tesseract。因此,在安裝tesserocr之前,我們需要先安裝tesseract。

下載tesseract
官方下載地址,其中在官網列表裏,帶dev的爲開發版本,不帶dev的爲穩定版本。選擇自己需要的版本即可。

解決tesseract下載過慢問題
如果直接在瀏覽器直接下載的話有可能一兩個小時都下載不完,不要問我爲什麼哦,你懂的!如下:
在這裏插入圖片描述
在這裏插入圖片描述
都2020了還幾KB/s,它成功打敗某盤了。這裏大概是有堵“牆”的原因吧。
在這裏我推薦一個工具就可以解決了下載速度過慢,Internet Download Manager這個工具在這就很實用了,速度馬上提了上去,如果你電腦沒有安裝的話,關注微信公衆號”盲點“回覆:IDM工具 即可獲取。

安裝tesseract
常規安裝步驟,不過多囉嗦了。
不過,記得勾選以下選項來安裝OCR識別支持的語言包,這樣就可以識別多國語言了。
在這裏插入圖片描述

直接安裝tesserocr
此時直接cmd使用pip進行安裝:

pip install tesserocr

安裝異常處理
有時通過上述方式安裝會出現異常,導致無法進行安裝。這時,可以使用tesserocr的whl文件進行安裝,tesserocr.whl官方下載地址,有whll類型的安裝包還是不夠,還要安裝wheel這個第三方庫才能使用whl文件這個方式進行安裝,如下:
在這裏插入圖片描述
然後進入cmd命令行切換目錄到whl文件下載的地址進行whl文件安裝包安裝:
在這裏插入圖片描述
這樣就安裝成功了!

python環境裏導入異常與原因
有時會出現導入tesserocr庫異常的情況,如下:
在這裏插入圖片描述
出現這個異常是因爲圖片上的路徑名出現了中文導致字符碼錯誤。而那個是user名,怎麼修改user裏的用戶名呢?戳戳看!如果需要修改用戶文件夾名字,另外推薦這篇文章根據實際情況參考參考!

成功安裝tesserocr
下面如圖導入沒有異常報錯就是成功安裝tesserocr了。
在這裏插入圖片描述

測試樣例
用它方法屬性來識別圖片上的字,如下圖:
在這裏插入圖片描述
我將它保存到F盤的根目錄下,名爲”image.png“。
在這裏插入圖片描述
好了,測試完了,tesserocr這個庫也安裝成功了!

一個關於程序員雜談的公衆號,歡迎關注!
在這裏插入圖片描述

有不足之處望留言指正

——————END——————
Programmer:柘月十七

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章