What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis

原創

xz1308579340

2020-07-01 18:01

論文鏈接
https://arxiv.org/abs/1904.01906
github代碼
https://github.com/clovaai/deep-text-recognition-benchmark

摘要

分析了現有論文提到的各個數據集的不一致性。
取（Feat），序列模塊（Seq），預測（Pred）
該框架不僅提供了現有的方法，而且還提供了它們可能的變體，以便對模塊方面的貢獻進行廣泛的分析。通過這項研究，我們更加嚴格地評估了各個模塊的貢獻，並提出了以前被忽視的模塊組合，從而改進了現有的技術水平。
此外，我們還分析了基準數據集上的失敗案例，以確定STR中的剩餘挑戰。

統一訓練集與測試集

MJSynth（MJ）含有8.9百萬的croped文本圖片，主要特點如下：
不同的字體渲染
邊框和陰影渲染
背景着色
字體，邊框和背景的合成
應用投影失真
與現實世界的圖像混合
添加噪音

SynthText（ST），是另外一個人工合成的圖片，其本來是用於文本定位的。但是其中可以crop出5.5百萬的文字圖片
MJ和SJ的樣例圖：

在前有的論文中，有些論文用了MJ/ST，而訓練數據集的不統一，就很難評判是否是模型的提高，所以以後要用同樣的訓練數據集
主要有7個現實數據集，如上圖。同時可以分爲常規數據集和非常規數據集：

IIIT
SVT，谷歌街景圖像，257張訓練，647張測試，有很強的噪音，模糊和低分辨率
IC03
IC13
非常規數據集
IC15
SP是從谷歌街景中收集的，包含645幅圖像用於評估。由於非正面視角的流行，許多圖像包含了透視投影
CT，主要爲彎曲的文本

測試結果

3. STR框架分析

STR任務和與計算機視覺任務(如目標檢測)和序列預測任務相似，所以很多都是CNN和RNN的提高。

第一個就是CRNN，CNN+RNN的組合，用CNN提取特徵，用RNN對其進行重構，實現魯棒序列預測
爲了矯正文本圖像，矯正模塊提出來了
改進的CNN特徵提取器
爲了提高推理速度，有的模型忽略了RNN
爲了提高字符序列預測，提出了基於注意力的解碼器

整個框架主要分爲了4個部分

矯正模塊
TPS，一個STN的變體，以其靈活性應用於文本行不同的縱橫比[24,17]。TPS在一組基準點之間使用平滑樣條插值，
特徵提取模塊
主要測試了VGG，RCNN，ResNet
序列模塊
主要是從CNN的特徵中提取額外的特徵，主要用BiLSTM，RNN是單方向的
預測模塊
主要有兩種方式：CTC和attention基於注意力機制的方式

4. 實驗和分析

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis

摘要

統一訓練集與測試集

測試結果

3. STR框架分析

4. 實驗和分析

如何使用 JS 判斷用戶是否處於活躍狀態

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

❤️‍🔥 Solon Cloud Event 新的事務特性與應用

文本檢測 DB：Real-time Scene Text Detection with Differentiable Binarization

Numpy的操作技巧

What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis

EAST算法(Efficient and Accuracy Scene Text))

CRAFT（Character Region Awareness for Text Detection）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結