What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis

論文鏈接
https://arxiv.org/abs/1904.01906
github代碼
https://github.com/clovaai/deep-text-recognition-benchmark

摘要

  • 分析了現有論文提到的各個數據集的不一致性。
  • 取(Feat),序列模塊(Seq),預測(Pred)
  • 該框架不僅提供了現有的方法,而且還提供了它們可能的變體,以便對模塊方面的貢獻進行廣泛的分析。通過這項研究,我們更加嚴格地評估了各個模塊的貢獻,並提出了以前被忽視的模塊組合,從而改進了現有的技術水平。
  • 此外,我們還分析了基準數據集上的失敗案例,以確定STR中的剩餘挑戰。

統一訓練集與測試集

MJSynth(MJ)含有8.9百萬的croped文本圖片,主要特點如下:
不同的字體渲染
邊框和陰影渲染
背景着色
字體,邊框和背景的合成
應用投影失真
與現實世界的圖像混合
添加噪音

SynthText(ST),是另外一個人工合成的圖片,其本來是用於文本定位的。但是其中可以crop出5.5百萬的文字圖片
MJ和SJ的樣例圖:
在這裏插入圖片描述
在前有的論文中,有些論文用了MJ/ST,而訓練數據集的不統一,就很難評判是否是模型的提高,所以以後要用同樣的訓練數據集
主要有7個現實數據集,如上圖。同時可以分爲常規數據集和非常規數據集:

IIIT
SVT,谷歌街景圖像,257張訓練,647張測試,有很強的噪音,模糊和低分辨率
IC03
IC13
非常規數據集
IC15
SP是從谷歌街景中收集的,包含645幅圖像用於評估。由於非正面視角的流行,許多圖像包含了透視投影
CT,主要爲彎曲的文本

測試結果

在這裏插入圖片描述

3. STR框架分析

STR任務和與計算機視覺任務(如目標檢測)和序列預測任務相似,所以很多都是CNN和RNN的提高。
在這裏插入圖片描述
第一個就是CRNN,CNN+RNN的組合,用CNN提取特徵,用RNN對其進行重構,實現魯棒序列預測
爲了矯正文本圖像,矯正模塊提出來了
改進的CNN特徵提取器
爲了提高推理速度,有的模型忽略了RNN
爲了提高字符序列預測,提出了基於注意力的解碼器

整個框架主要分爲了4個部分

矯正模塊
TPS,一個STN的變體,以其靈活性應用於文本行不同的縱橫比[24,17]。TPS在一組基準點之間使用平滑樣條插值,
特徵提取模塊
主要測試了VGG,RCNN,ResNet
序列模塊
主要是從CNN的特徵中提取額外的特徵,主要用BiLSTM,RNN是單方向的
預測模塊
主要有兩種方式:CTC和attention基於注意力機制的方式

4. 實驗和分析

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章