前言:
由於實驗需求,記錄一下最近(主要19年)場景文本檢測的實驗的實現細節和數據集選擇。
常用的預訓練模型
pre-train:
- synthtext (800k) 1epoch
- IC17 MLT(7200)40 epoch (psenet spcnet)
多尺度訓練
PSEnet: : 縮放 旋轉 水平翻轉 隨機裁剪
常用參數
名稱 | 一階學習率 | 二階學習率 | batch size | 迭代次數 | 數據集 | 其他 |
---|---|---|---|---|---|---|
PSEnet | 0.001 | 0.0001 | 16 | 36k iteration | synth、MLT | ------- |
常用的不規則文本數據集
名稱 | 訓練集 | 驗證集 | 測試集 | 特點 | 文本形狀 |
---|---|---|---|---|---|
ICDAR 2013 | 462 | 229 | 233 | 字符級 | 水平 |
ICDAR 2015 | 1000 | —— | 500 | 字符級 | 任意四邊形 |
ICDAR 2017 MLT(*) | 7200 | 1800 | 9000 | 字符級 | 多語言 |
Total-Text (*) | 1255 | —— | 300 | ---- | 水平,多方向,彎曲 |
CTW1500 | 1000 | —— | 500 | 文本行 | 14點多邊形 |
SynthText | 800k | —— | —— | ----- | 合成數據集 |
MSRA-TD500 | 500 | 300 | 200 | 彎曲文本 |
預訓練方法1 :2017MLT
預訓練方法2 : 合成數據集(AAAI 2019)
預訓練方法3:全部訓練集一起