[论文阅读]Chinese Street View Text: Large-scale Chinese Text Reading with Partially Supervised Learning

文章被收录于ICCV2019
[论文地址]http://openaccess.thecvf.com/content_ICCV_2019/html/Sun_Chinese_Street_View_Text_Large-Scale_Chinese_Text_Reading_With_Partially_ICCV_2019_paper.html
[代码地址]暂未找到


摘要

  1. 由于训练数据有限,现有的基准很难评估大量词汇的深度学习模型的性能,本文提出新的基准数据集Chinese Street View Text (C-SVT)。
  2. C-SVT由430,000张图片组成,其中30,000张图片是抢标注图像(所有的文字区域与label),剩余的400,000张图片为弱标注文本(只有感兴趣区域文本的label,有些区域并不关注)。
  3. 为了从弱标记图像中定位出最佳匹配的文本建议,本文在整个模型中加入了一个在线建议匹配模块,通过共享参数来定位关键词区域进行端到端的训练。

简介

本文贡献:

  1. 提出了全新的大规模中文文本阅读基准C-SVT,包括强标注与弱标注图像,是现存中文文本数据集量的14倍。
  2. 本文提出了一个端到端可训练模块来利用大规模弱标注图像,该模块既可以从强标注中学习,也可以从弱标注中学习,从而定位和识别文本。
  3. 本文提出的部分监督的模型在性能上可以超过全监督的模型,且在ICDAR 2017-RCTW上达到了最优结果。

相关工作

文本阅读基准

英文文本数据集:

  • 规则文本
  • 弯曲文本

中文文本数据集:

  • 手写文本
    • Liu 等人提出的 [26]
  • 自然场景文本

端到端文本阅读

[40], [12], [18], [23]将文本阅读分为检测与识别两步,[22], [7], [5], [6], [28], [14], [29], [37]通过共享特征的方式将两步变为端到端的方式。

检测:[8], [22], [29]使用了区域推荐网络RPN生成文本区域,[14], [28], [37]采用全卷积网络预测文本区域。

识别:[11], [4]使用 CTC (Connectionist Temporal Classification)[7], [28]和基于注意力的LSTM解码器,将单个字符识别为序列。

弱监督和部分监督学习

弱监督的文本检测方法[38], [15]使用字符级别的边界框来检测文本,并使用单词级别的边界框来提升准确率。


方法

本文提出的模型由骨干网络、文本检测分支、透视RoI(感兴趣区域)转换、文本识别分支和在线推荐匹配模块组成,如图4所示:
在这里插入图片描述

端到端中文文本阅读

文本能检测分支:本文采用ResNet-50作为骨干网络,加上全卷积模块构成文本检测分支,共同完成文本/非文本分类与文本位置回归。
训练阶段:使用的损失函数为:Ldet=Lloc+λLclsL_{det}=L_{loc}+\lambda{L_{cls}},其中LlocL_{loc}是计算位置回归的平滑L1损失,LclsL_{cls}是文本/非文本分类的筛子损失(dice loss),λ\lambda是超参。
测试阶段:将阈值用于文本分类的概率且使用NMS筛选选定的四边形区域。

Perspective RoI Transform:将特征图FF中的对应区域,对齐为小特征图FpF_p。每一个FpF_p保持在具有不变的纵横比的固定高度,当高度/宽度大于1时,此时将每条垂直线(不太理解)沿顺时针方向旋转90度,从而实现识别水平和垂直文本。

文本识别分支:本文在识别分支中采用了基于注意力的编解码框架和RNN作为编码器,将FpF_p作为输入,识别分支提取具有堆叠卷积层的顺序文本特征FsF_s,其中RNN的循环单元采用GRU(Gated Recurrent Unit)。

部分监督学习

Online Proposal Matching

本文提出的OPM目的是通过关键字注释ywy^w来定位文本,即生成一组text proposals,记作{Pw(i)}i=1N\left\{P^{w}(i)\right\}_{i=1}^{N},其中NN为预测得到的text proposals数目。

然后,通过perspective RoI提取每个proposal中的特征图,然后使用CNN-RNN编码器编码成为序列特征FswF_s^w。为了计算FswF_s^w和弱标签ywy^w之间的相似程度,本文在OPM模块中采用了基于注意力的RNN解码器来计算解码状态(decoder states){htw}t=1Tw\left\{{h_t^w}\right\}_{t=1}^{T^w}TwT^w是时间步长的数目,也是标签ywy^w的长度。

为了选择正确的proposals,OPM直接计算嵌入空间(embedding space ) f()f(\cdot)中对于每一个text proposal的解码状态和标签ywy^w的字符嵌入(character embedding) {etw}t=1Tw\left\{\mathbf{e}_{t}^{w}\right\}_{t=1}^{T^{w}}的欧几里得距离dw(i)d^w(i)
dw(i)=1Twt=1Twf(htw,Wh)f(etw,We)d^{w}(i)=\frac{1}{T^{w}} \sum_{t=1}^{T^{w}}\left\|f\left(\mathbf{h}_{t}^{w}, \mathbf{W}_{h}\right)-f\left(\mathbf{e}_{t}^{w}, \mathbf{W}_{e}\right)\right\|

WhW_hWeW_e分别是嵌入空间中编码htwh^w_tetwe^w_t的参数。

OPM模块使用成对loss,
Lopm=1Ni=1N[sw(i)]2L_{o p m}=\frac{1}{N} \sum_{i=1}^{N}\left[s^{w}(i)\right]^{2}
当text proposalPw(i)P^w(i)是与ywy^w匹配的正样本时,sw(i)=dw(i)s^{w}(i)=d^{w}(i);反之,sw(i)=max(0,1dw(i))s^{w}(i)=\max(0,1-d^w(i))。而正负样本的划分是通过检查Pw(i)P^w(i)ywy^w的IoU来确定的。

全监督和弱监督的结合训练

对于全监督的训练来讲,其中的loss为Lfull=Ldet+βLrecogL_{\text {full}}=L_{\text {det}}+\beta L_{\text {recog}}β\beta是权衡两个loss的超参。

对于部分监督来讲,其中的loss为Lrecogw=1i=1Nm(i)i=1Nm(i)lrecogw(i)L_{r e c o g}^{w}=\frac{1}{\sum_{i=1}^{N} m(i)} \sum_{i=1}^{N} m(i) l_{r e c o g}^{w}(i)
本文设定一个阈值τ\tau,目的是为了选择正确的text proposal。当
dw(i)τd^{w}(i) \leq \tau时,m(i)=1m(i)=1,否则m(i)=0m(i)=0
ii个text proposal鉴别损失函数被定义为负对数似然函数:
lrecogw(i)=1Twt=1Twlogp(ytwyt1w,ht1w,ctw) l_{r e c o g}^{w}(i)=-\frac{1}{T^{w}} \sum_{t=1}^{T^{w}} \log p\left(\mathbf{y}_{t}^{w} | \mathbf{y}_{t-1}^{w}, \mathbf{h}_{t-1}^{w}, \mathbf{c}_{t}^{w}\right)
其中的ctwc^w_t表示的是在tt时刻,通过注意力机制计算的上下文向量。

部分监督学习总的loss为
Ltotal=Ldet+β(Lrecog+Lrecogw) L_{t o t a l}=L_{d e t}+\beta\left(L_{r e c o g}+L_{r e c o g}^{w}\right)

训练流水线

本文提出的部分监督框架的训练过程建立在完全监督的文本阅读模型的基础上,可分为两个阶段:
阶段一:首先训练全监督的OPM模块,然后通过从完整标注的图片上生成假的弱标签。本文随机选择一个标记的文本实例作为关键字区域,并生成一组文本建议(text proposals)。为了训练OPM,本文计算每一个text proposal与选择的关键字区域的IoU,当IoU小于0.5时,记作负样本;将选择的关键字的区域作为正样本。

阶段二:阶段一完成后,进一步根据部分监督Loss函数LtotalL_{total}来训练整个模型,此时全标注和部分标注的数据都被用于训练。


实验

本文中定义平均编辑距离Average Edit Distance记作AED。R、P、F分别代表Recall、Precision、F-score,三个值越高性能越好;AED约低性能越好。

定性与定量结果

定性结果:如图5所示,上一行为仅采用全标注的图像训练的模型效果,下一行为部分监督模型训练的效果。
在这里插入图片描述
定量结果:首先注明,End2End为仅采用全标注图像训练的模型,End2End-PSL代表端到端的部分监督的学习模型。

另外,全标注4.4K额外图像与弱标注400K需要的代价差不多,如表3所示,在测试集上,End2End-PSL + 400K Weak较End2End+4.4K Extra Full在F-score提升4.03%,在AED上降低了1.47%;而End2End-PSL + 50K Weak与End2End + 10K Extra Full效果差不多,但50K Weak的工作成本仅仅只为10K Extra Full的112\frac{1}{12},说明了弱标注的样本对效果的提升提供了很大的帮助。
在这里插入图片描述

比较其他方法

End2End2-MS为多尺度训练模型。从表4中可以看出End2End-PSL比End2End降低了AED3.3%;在多尺度测试中,End2End-PSL-MS在AED上取到了22.1%的最优成绩。
在这里插入图片描述

模型设计的有效性

Online Proposal Matching:表5中使用随机选择的500张弱标注图片,使用不同的阈值τ\tau来选择text proposals。当τ=0.1\tau=0.1时,具有可接受的Recall和较高的Precision。
在这里插入图片描述

部分匹配样本如下图所示:
在这里插入图片描述
c图中显示即使GT被包含到了多个text proposals中,模型一样可以检测出来。d图展示了GT被划分到了不同的text proposals中,会导致Recall比较低。

弱标注的识别有效性

在这里插入图片描述


总结

  1. 提出了C-SVT最大的中文文本检测基准
  2. 提出了在线建议匹配模块(OPM)来训练部分监督的端到端的模型,同时可以从强标注与弱标注样本中学习。
  3. 与强标注相比,加入了弱标注的学习可以在F-score上提升4.03%;在 ICDAR 2017-RCTW达到了最优。

参考文献

[19] DimosthenisKaratzasandetal.ICDAR2013robustreading competition. In Proc. of ICDAR, pages 1484–1493. IEEE, 2013.
[20] Dimosthenis Karatzas and et al. ICDAR 2015 competition on robust reading. In Proc. of ICDAR, pages 1156–1160. IEEE, 2015.
[10] Chee Kheng Chng and Chee Seng Chan. Total-text: A com- prehensive dataset for scene text detection and recognition. In Proc. of ICDAR, 2017.
[44] Liu Yuliang, Jin Lianwen, Zhang Shuaitao, and Zhang Sheng. Detecting curve text in the wild: New dataset and new solution. arXiv preprint arXiv:1712.02170, 2017.
[26] Cheng-LinLiu,FeiYin,Da-HanWang,andQiu-FengWang. CASIA online and offline chinese handwriting databases. In 2011 International Conference on Document Analysis and Recognition (ICDAR), pages 37–41. IEEE, 2011.
[42] Cong Yao, Xiang Bai, Wenyu Liu, Yi Ma, and Zhuowen Tu. Detecting texts of arbitrary orientations in natural images. In Proc. of CVPR, pages 1083–1090, 2012.
[36] BaoguangShi,CongYao,MinghuiLiao,MingkunYang,Pei Xu, Linyan Cui, Serge Belongie, Shijian Lu, and Xiang Bai. ICDAR2017 competition on reading chinese text in the wild (RCTW-17). In 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), volume 1, pages 1429–1434. IEEE, 2017.
[43] Tai-Ling Yuan, Zhe Zhu, Kun Xu, Cheng-Jun Li, and Shi-Min Hu. Chinese text in the wild. arXiv preprint arXiv:1803.00085, 2018.
[40] Tao Wang, David J Wu, Adam Coates, and Andrew Y Ng. End-to-end text recognition with convolutional neural net- works. In Proc. of ICPR, pages 3304–3308, 2012.
[12] Ankush Gupta, Andrea Vedaldi, and Andrew Zisserman. Synthetic data for text localisation in natural images. In Proc. of CVPR, pages 2315–2324, 2016.
[18] Max Jaderberg, Karen Simonyan, Andrea Vedaldi, and An- drew Zisserman. Reading text in the wild with convolutional neural networks. International Journal of Computer Vision, 116(1):1–20, 2016.
[23] Minghui Liao, Baoguang Shi, and Xiang Bai. Textboxes++: A single-shot oriented scene text detector. IEEE Transac- tions on Image Processing, 27(8):3676–3690, 2018.
[22] Hui Li, Peng Wang, and Chunhua Shen. Towards end-to-end text spotting with convolutional recurrent neural networks. In Proc. of ICCV, pages 5238–5246, 2017.
[7] Michal Busˇta, Luka ́sˇ Neumann, and Jirı Matas. Deep textspotter: An end-to-end trainable scene text localization and recognition framework. Proc. of ICCV, 2017.
[5] Christian Bartz, Haojin Yang, and Christoph Meinel. Stn- ocr: A single neural network for text detection and text recognition. arXiv preprint arXiv:1707.08831, 2017.
[6] Christian Bartz, Haojin Yang, and Christoph Meinel. See: towards semi-supervised end-to-end scene text recognition. In AAAI, 2018.
[28] Xuebo Liu, Ding Liang, Shi Yan, Dagui Chen, Yu Qiao, and Junjie Yan. Fots: Fast oriented text spotting with a unified network. In Proc. of CVPR, pages 5676–5685, 2018.
[14] Tong He, Zhi Tian, Weilin Huang, Chunhua Shen, Yu Qiao, and Changming Sun. An end-to-end textspotter with explicit alignment and attention. In Proc. of CVPR, pages 5020– 5029, 2018.
[29] Pengyuan Lyu, Minghui Liao, Cong Yao, Wenhao Wu, and Xiang Bai. Mask textspotter: An end-to-end trainable neural network for spotting text with arbitrary shapes. In Proc. of ECCV, pages 67–83, 2018.
[37] Yipeng Sun, Chengquan Zhang, Zuming Huang, Jiaming Liu, Junyu Han, and Errui Ding. Textnet: Irregular text read- ing from images with an end-to-end trainable network. In Proc. of ACCV, 2018.
[8] Michal Busˇta, Luka ́sˇ Neumann, and Jirı Matas. Deep textspotter: An end-to-end trainable scene text localization and recognition framework. In Proc. of CVPR, pages 2223– 2231. IEEE, 2017.
[22] Hui Li, Peng Wang, and Chunhua Shen. Towards end-to-end text spotting with convolutional recurrent neural networks. In Proc. of ICCV, pages 5238–5246, 2017.
[38] Shangxuan Tian, Shijian Lu, and Chongshou Li. Wetext: Scene text detection under weak supervision. In Proc. of CVPR, pages 1501–1509. IEEE, 2017.
[15] Han Hu, Chengquan Zhang, Yuxuan Luo, Yuzhuo Wang, Junyu Han, and Errui Ding. Wordsup: Exploiting word anno- tations for character based text detection. In Proc. of ICCV, 2017.
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章