点击下方“AI算法与图像处理”,一起进步!
重磅干货,第一时间送达
本文简要介绍2021年5月被Pattern Recognition录用论文“Stroke constrained attention network for online handwritten mathematical expression recognition”的主要工作。该论文是2019年发表在ICDAR上的文章[1]的升级版,本文以笔画为建模单位,提出了 Stroke Constrained Attention Network (SCAN),该模型可以被用於单模态(在线/离线)和多模态公式识别上,在CROHME数据集上的实验证明,该模型取得了SOTA的效果。
一、研究背景
二. 原理概述
图1 SCAN的整体框架图
1. 单模态SCAN
1.1 笔画掩膜
1.2 在线编码器
图2 在线编码器的网络结构
在线编码器是由1D的DenseNet-20和多层GRU组成。由于在线输入向量大小为8x1x1,DenseNet中的卷积核大小由 3x3改为1x3。DenseNet的输出特征图大小为 1xLxD,可以转化为 L个D维向量。为了捕获输入轨迹点的上下文信息,特征图再经过GRU进一步编码,得到轨迹特征,其为一个长度为L的D维特征向量序列。然后,利用在线笔画掩膜集合,将每个在线笔画掩膜进行次数等于在线卷积神经网络中池化层层数的下采样操作,将其从N维向量转为L维向量。然后通过以下公式,得到在线笔画特征:
1.3 离线编码器
图3 离线编码器的网络结构
静态图像经过离线编码器后,得到的像素特征矩阵B,利用离线笔画掩膜集合,将像素特征B转为离线笔画特征。首先对每个离线笔画掩膜进行次数等于离线编码器中池化层数量的下采样操作,将其转为离线特征掩膜。通过以下公式,可计算得到离线笔画特征:
2.1 多模态解码器 (MMSCAN-D)
图4 二次注意力机制
在预注意模型的基础上,利用精细注意模型生成多模态笔画级上下文向量:
2.2 多模态编码器融合 (MMSCAN-E)
借助笔画掩膜,在线轨迹点特征和离线像素特征可以被转化为在线和离线的笔画级特征,这两者有天然的一一对应关系,因此作者提出在编码器阶段,对两个模态进行早期融合。
图5 多模态编码器的网络结构
2.3 编码器-解码器融合 (MMSCAN-ED)
三. 实验结果
1. 提出的单模态SCAN模型是否比其他在线模型有效
2.采用编码/解码器融合的多模态模型是否有效
由表4/5可知,采用笔画级别的编码器-解码器融合方式(MMSCAN-ED),取得了最好的效果。
表4 不同多模态方法在CROHME 2014和CROHME 2016测试集上的性能比较
3. 注意力可视化
由图6可见,MMSCAN-E在每一步生成精确的注意结果,并正确识别示例表达式。这表明了早期融合的优越性,可以更好地利用在线和离线模式之间的对齐关系。
4. 时间复杂度分析
由表6可见,单模态下,由于笔画的数量远小于轨迹点/像素的数量,基于笔画建模的OnSCAN/OffSCAN模型消耗更少的时间。同理,在多模态情况下,MMSCAN-D比E-MAN更快,因为MMSCAN-D同时用在线和离线笔画级特征替换轨迹点级和像素级特征。MMSCAN- ED模型具有最好的识别性能,但计算代价最高。
图6 MMSCAN-E和MMSCAN-D的注意力可视化和识别结果
表6 不同模态方法的识别率和时间效率对比
5. 与其他SOTA方法的比较
表7 与其他SOTA方法在CROHME 2014和2016 测试集上的性能比较
注:表中参考文献见原文。
论文资源
https://www.sciencedirect.com/science/article/pii/S003132032100234X
参考文献
[1]. J. Wang , J. Du , J. Zhang , Z.-R. Wang , Multi-modal attention network for hand- written mathematical expression recognition, in: International Conference on Document Analysis and Recognition, 2019, pp. 1181–1186 .
原文作者: Jiaming Wang, Jun Du, Jianshu Zhang, Bin Wang, Bo Ren
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
努力分享优质的计算机视觉相关内容,欢迎关注:
个人微信(如果没有备注不拉群!)
请注明:
地区+学校/企业+研究方向+暱称
下载1:何恺明顶会分享
在「AI算法与图像处理」公众号后台回复:何恺明,即可下载。总共有6份PDF,涉及 ResNet、Mask RCNN等经典工作的总结分析
下载2:终身受益的编程指南:Google编程风格指南
在「AI算法与图像处理」公众号后台回复:c++,即可下载。历经十年考验,最权威的编程规范!
下载3 CVPR2021
在「AI算法与图像处理」公众号后台回复:
CVPR
,即可下载1467篇CVPR 2020论文 和 CVPR 2021 最新论文
点亮 ,告诉大家你也在看
本文分享自微信公众号 - AI算法与图像处理(AI_study)。
如有侵权,请联系 [email protected] 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。