tesserocr的安装

在爬虫过程中,难免会遇到各种各样的验证码,而大多数验证码还是图形验证码,这时候我们可以直接用OCR来识别。
OCR
OCR,即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说,它们都是一些不规则的字符,这些字符确实是由字符稍加扭曲变换得到的内容。
我们可以使用OCR技术来将其转化为电子文本,然后爬虫将识别结果提交给服务器,便可以达到自动识别验证码的过程。
eserocr是Python的一个OCR识别库,但其实是对tesseract做的一层PythonAPI封装,所以它的核心是tesseract。因此,在安装tesserocr之前,我们需要先安装tesseract。

下载tesseract
官方下载地址,其中在官网列表里,带dev的为开发版本,不带dev的为稳定版本。选择自己需要的版本即可。

解决tesseract下载过慢问题
如果直接在浏览器直接下载的话有可能一两个小时都下载不完,不要问我为什么哦,你懂的!如下:
在这里插入图片描述
在这里插入图片描述
都2020了还几KB/s,它成功打败某盘了。这里大概是有堵“墙”的原因吧。
在这里我推荐一个工具就可以解决了下载速度过慢,Internet Download Manager这个工具在这就很实用了,速度马上提了上去,如果你电脑没有安装的话,关注微信公众号”盲点“回复:IDM工具 即可获取。

安装tesseract
常规安装步骤,不过多啰嗦了。
不过,记得勾选以下选项来安装OCR识别支持的语言包,这样就可以识别多国语言了。
在这里插入图片描述

直接安装tesserocr
此时直接cmd使用pip进行安装:

pip install tesserocr

安装异常处理
有时通过上述方式安装会出现异常,导致无法进行安装。这时,可以使用tesserocr的whl文件进行安装,tesserocr.whl官方下载地址,有whll类型的安装包还是不够,还要安装wheel这个第三方库才能使用whl文件这个方式进行安装,如下:
在这里插入图片描述
然后进入cmd命令行切换目录到whl文件下载的地址进行whl文件安装包安装:
在这里插入图片描述
这样就安装成功了!

python环境里导入异常与原因
有时会出现导入tesserocr库异常的情况,如下:
在这里插入图片描述
出现这个异常是因为图片上的路径名出现了中文导致字符码错误。而那个是user名,怎么修改user里的用户名呢?戳戳看!如果需要修改用户文件夹名字,另外推荐这篇文章根据实际情况参考参考!

成功安装tesserocr
下面如图导入没有异常报错就是成功安装tesserocr了。
在这里插入图片描述

测试样例
用它方法属性来识别图片上的字,如下图:
在这里插入图片描述
我将它保存到F盘的根目录下,名为”image.png“。
在这里插入图片描述
好了,测试完了,tesserocr这个库也安装成功了!

一个关于程序员杂谈的公众号,欢迎关注!
在这里插入图片描述

有不足之处望留言指正

——————END——————
Programmer:柘月十七

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章