前言:
由于实验需求,记录一下最近(主要19年)场景文本检测的实验的实现细节和数据集选择。
常用的预训练模型
pre-train:
- synthtext (800k) 1epoch
- IC17 MLT(7200)40 epoch (psenet spcnet)
多尺度训练
PSEnet: : 缩放 旋转 水平翻转 随机裁剪
常用参数
名称 | 一阶学习率 | 二阶学习率 | batch size | 迭代次数 | 数据集 | 其他 |
---|---|---|---|---|---|---|
PSEnet | 0.001 | 0.0001 | 16 | 36k iteration | synth、MLT | ------- |
常用的不规则文本数据集
名称 | 训练集 | 验证集 | 测试集 | 特点 | 文本形状 |
---|---|---|---|---|---|
ICDAR 2013 | 462 | 229 | 233 | 字符级 | 水平 |
ICDAR 2015 | 1000 | —— | 500 | 字符级 | 任意四边形 |
ICDAR 2017 MLT(*) | 7200 | 1800 | 9000 | 字符级 | 多语言 |
Total-Text (*) | 1255 | —— | 300 | ---- | 水平,多方向,弯曲 |
CTW1500 | 1000 | —— | 500 | 文本行 | 14点多边形 |
SynthText | 800k | —— | —— | ----- | 合成数据集 |
MSRA-TD500 | 500 | 300 | 200 | 弯曲文本 |
预训练方法1 :2017MLT
预训练方法2 : 合成数据集(AAAI 2019)
预训练方法3:全部训练集一起