python利用Tesseract識別驗證碼的方法示例

無論是是自動化登錄還是爬蟲，總繞不開驗證碼，這次就來談談python中光學識別驗證碼模塊Tesseract，具有一定的參考價值，感興趣的小夥伴們可以參考一下

無論是是自動化登錄還是爬蟲，總繞不開驗證碼，這次就來談談python中光學識別驗證碼模塊tesserocr和pytesseract。tesserocr和pytesseract是Python的一個OCR識別庫，但其實是對tesseract做的一層Python API封裝，pytesseract是Google的Tesseract-OCR引擎包裝器；所以它們的核心是tesseract,因此在安裝tesserocr之前，我們需要先安裝tesseract。

下載安裝

下載地址：https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v4.0.0.20181030.exe

下載完成後，雙擊安裝，可以勾選Additional language data(download)選項來安裝OCR識別支持的語言包，但下載語言包實在是慢，我們可以直接從https://github.com/tesseract-ocr/tessdata/下載zip的語言包壓縮文件，解壓後將tessdata-master中的文件複製到Tesseract的安裝目錄C:\Program Files (x86)\Tesseract-OCR\tessdata目錄下，最後我們配置下環境變量，我們將C:\Program Files (x86)\Tesseract-OCR添加到環境變量中。進入命令提示符，輸入tesseract，顯示下圖結果，說明配置完成

查看安裝了的語言包：tesseract --list-langs

顯示我一共安裝了167種語言包，裏邊包含英文或者其他字符。

測試

實驗用的二維碼

基本使用語法
tesseract image.png result （tesseract 圖片名稱生成文件名稱）

結果

由結果來看，識別出來了P、2和X，但是把C識別成了G，識別度還是比較高，接下來看在python中的使用

python引入tesseract

在python下使用pip命令即可完成下載安裝 pip install pytesseract

識別驗證碼腳本

import pytesseract
from PIL import Image
im=Image.open('pin.png')
print(pytesseract.image_to_string(im))

結果

這樣識別的結果同樣跟上文一樣，個別字符識別的不是很準確

圖像處理

現在網站上的二維碼設計的通常很難複雜，如果直接識別的話很難識別出來，下面這段代碼是進行灰度處理和二值化

import pytesseract
from PIL import Image
im=Image.open('5.jpg')
#進行置灰處理
im=im.convert('L')
#這個是二值化閾值
threshold=150
table=[]
for i in range(256):
 if i<threshold:
  table.append(0)
 else:
  table.append(1)
#通過表格轉換成二進制圖片，1的作用是白色，0就是黑色
im=im.point(table,"1")
im.show()
print(pytesseract.image_to_string(im))

原圖

置灰和二值化後

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支持神馬文庫。

python利用Tesseract識別驗證碼的方法示例

如何基於surging跨網關跨語言進行緩存降級

2024合集

程序員天天 CURD，怎麼才能成長，職業發展的思考(2)

移位操作搞定兩數之商

教你用Perl實現Smgp協議

如何通過前端表格控件在10分鐘內完成一張分組報表？

win11關閉自動檢測病毒刪文件

千兆寬帶實際網速能到達多少？

如何在GitHub上創建個人博客

python利用Tesseract識別驗證碼的方法示例

python利用Tesseract識別驗證碼

python裝飾器

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結