【含17w樣本】搜狗驗證碼識別

搜狗的驗證碼挺有趣的,干擾給滿分,今天不做方案,只做分享

【核心】重中之重

樣本下載地址:[https://bbs.nightteam.cn/thread-149.htm](https://bbs.nightteam.cn/thread-149.htm)

一共17W樣本,性能再差的網絡也能識別的很好了
在這裏插入圖片描述
訓練並沒有什麼注意事項,但是印象中這個驗證碼發生過一次改動,尺寸修改,那麼如何應對這種變化而不用二次訓練呢?這纔是今天的主題

【提升模型的泛化能力——適應尺寸變化】

我們的樣本尺寸是單一的,通過觀察,我們得知,如果通過裁剪修改圖片比例容易丟失重要內容的像素,那麼我們可以反其道通過填充模擬:
下面列舉幾個方案:

方案一:
在這裏插入圖片描述
可以通過複製【紅色區域】向上延展圖片內容。——四個方向同理

方案二:
圖片拼接:怎麼說呢,我們可以手動篩選出部分字符,做一個圖像生成器,旋轉放大扭曲等等之後拼接於首位或末尾

方案三:
生成一部分尺寸不一,字體相近的驗證碼按一定的權重和樣本混合訓練

訓練流程

可以參見:
https://blog.csdn.net/kerlomz/article/details/86706542

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章