【附源码模型】战网验证码识别

原創

2020-06-10 11:55

1. 样本采集

首先当然是采集图片了，对接通用模型上怼样本就是了。

for i in range(100000):
    sess.headers = {
        "User-Agent": ua.random
    }
    sess.proxies = get_proxy()
    # print(get_proxy())
    before_url = "https://www.battlenet.com.cn/login/zh/"
    before_resp = sess.get(before_url)
    before_html = Selector(before_resp.text)
    csrf_token = before_html.xpath('//input[@name="csrftoken"]/@value').extract_first()
    session_timeout = before_html.xpath('//input[@name="sessionTimeout"]/@value').extract_first()

    captcha_url = "https://www.battlenet.com.cn/login/captcha.jpg"
    captcha_resp = sess.get(captcha_url)
    captcha_bytes = captcha_resp.content
    print(captcha_bytes)
    captcha_text = requests.post("http://127.0.0.1:19952/captcha/v3", data=captcha_bytes).json()['message']
    payload = {
        "accountName": "00000",
        "password": ".",
        "srpEnabled": "true",
        "upgradeVerifier": "",
        "useSrp": "true",
        "publicA": public_a,
        "clientEvidenceM1": client_evidence_m1,
        "persistLogin": "on",
        "captchaInput": captcha_text,
        "csrftoken": csrf_token,
        "sessionTimeout": session_timeout
    }

    resp_submit = sess.post(before_url, data=payload)
    if "找不到该暴雪游戏通行证" in resp_submit.text:
        tag = hashlib.md5(captcha_bytes).hexdigest()
        name = "{}_{}.png".format(captcha_text, tag)
        print('正确')
        true_count += 1
        with open(os.path.join(target_dir, name), "wb") as f:
            f.write(captcha_bytes)
    else:
        print('错误')
        false_count += 1
        # print(before_resp.text)
    print(true_count+false_count, captcha_text, true_count / (true_count+false_count))

采集代码有所省略，如下图所示，采集到正确标注的样本。

2. 训练

打开训练工具
（地址：https://github.com/kerlomz/captcha_trainer）
具体教程可参考：https://www.jianshu.com/p/80ef04b16efc

首先输入项目名，按下回车将自动生成如图后缀
在样本区域内导入第一步收集到的样本
网络部分会根据导入的样本自动配置，打包样本即可，如下图：
打包完成点击【开始训练】即可，如下图：
如图所示，已经开始训练

验证码使用

部署项目：https://github.com/kerlomz/captcha_platform
编译版（一键部署）：https://github.com/kerlomz/captcha_platform/releases
启动成功如图：

调用如图：

如图可见，单次识别速度在10ms以内，平均8ms，属业内领先水准。

对接官网测试结果：

测了13次全对，识别率想必差不了。

模型下载

https://github.com/kerlomz/captcha_platform/releases

后记

顺便宣传一波麻瓜OCR识别
https://pypi.org/project/muggle-ocr/1.0/
这是一个OCR和验证码皆可识别的本地识别模块，使用简单，pip安装，三行代码即可调用。

import time

# 第一步：导入包
import muggle_ocr

# 第二步：初始化；model_type 包含了 ModelType.OCR/ModelType.Captcha 两种
sdk = muggle_ocr.SDK(model_type=muggle_ocr.ModelType.OCR)

# ModelType.Captcha 可识别光学印刷文本
with open(r"test1.png", "rb") as f:
    b = f.read()
for i in range(5):
    st = time.time()
    # 第三步： 调用（识别普通OCR）
    text = sdk.predict(image_bytes=b)
    print(text, time.time() - st)

# ModelType.Captcha 可识别4-6位验证码
sdk = muggle_ocr.SDK(model_type=muggle_ocr.ModelType.Captcha)
with open(r"test2.jpg", "rb") as f:
    b = f.read()
for i in range(5):
    st = time.time()
    # 第三步： 调用（识别验证码）
    text = sdk.predict(image_bytes=b)
    print(text, time.time() - st)

喜欢的各位可以加QQ群：857149419

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【附源码模型】战网验证码识别

1. 样本采集

2. 训练

验证码使用

模型下载

后记

[转帖]使用NMT和pmap解决JVM资源泄漏问题原创

Python实现大麦网抢票的四大关键技术点解析

Python 安装库指令大全

salesforce零基础学习（一百三十八）零碎知识点小总结（十）

一款开源的.NET程序集反编译、编辑和调试神器

关于接口协议，你必须要知道这些！

基于 Milvus + LlamaIndex 实现高级 RAG

【2024-05-21】以茶会友

【源碼】某度貼吧驗證碼識別

【2020.06】國稅總局發票查驗平臺驗證碼最新獲取方法

微軟/Hotmail驗證碼識別97%識別率方案

【含17w樣本】搜狗驗證碼識別

南航驗證碼識別方案

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結