数学公式识别论文一:Image-to-Markup Generation with Coarse-to-Fine Attention

标题:Image-to-Markup Generation with Coarse-to-Fine Attention(图像到标记的生成具有由粗到精的注意力机制)
发表日期:2017年6月13
作者:Yuntian Deng 1 Anssi Kanervisto

Abstract

我们提出了一种神经编码器-解码器模型,用于基于可扩展的从粗到精注意机制将图像转换为表示标记。 我们的方法是在图像到LaTeX生成的上下文中进行评估的,我们引入了一个新的真实世界渲染数学表达式与LaTeX标记配对的数据集。

我们证明,与使用基于CTC的模型的神经OCR技术不同,基于注意力的方法可以解决这一非标准的OCR任务。 我们的方法在域内渲染的数据上大大优于传统的数学OCR系统,并且经过预训练,在域外的手写数据上也表现出色。 为了减少与基于注意力的方法相关的推理复杂性,我们引入了一个新的从粗到精的注意力层,该层在应用注意力之前先选择一个支持区域。

1. Introduction

光学字符识别(OCR)最常用于识别图像中的自然语言。 **然而,早在安德森(Anderson,1967)的著作中,就已经有研究兴趣将图像转换为结构化语言或标记,从而定义文本本身及其表示语义。**这项研究的主要目标是用于数学表达式的OCR,以及如何处理表示方面,例如子和上标符号,特殊符号和嵌套分数(Belaid&Haton,1984; Chan&Yeung,2000)。 最有效的系统将专门的字符分割与基础数学布局语言的语法结合在一起(Miller&Viola,1998)。这种方法的主要例子是INFTY系统,该系统用于将打印的数学表达式转换为LaTeX和其他标记格式(Suzuki等,2003)。

作为CROHME手写数学挑战赛的一部分,其他主要是专有系统也参与了这项任务的竞争(Mouchere等人,2013; 2014)。

由于在这两个领域中对深层神经模型的改进,OCR之类的问题需要对图像和文本数据进行联合处理,因此近来研究兴趣日益增加。 例如,在手写识别(Ciresan等,2010),自然场景中的OCR(Jaderberg等,2015; 2016; Wang等,2012)和图像标题生成(Karpathy& Fei-Fei,2015; Vinyals等,2015)。在**较高级别上,这些系统中的每一个都学习输入图像的抽象编码表示,然后将其解码以生成文本输出。 除了在标准任务上执行得很好之外,这些模型完全由数据驱动,这使得它们可以适应各种数据集,**而无需进行大量的预处理或特定领域的工程。

但是,我们注意到诸如图像字幕之类的任务与传统的数学OCR任务在两个方面有所不同:首先,与图像字幕不同,传统的OCR任务采用从左到右的顺序,因此解决这个问题的神经系统主要具有 依赖于连接主义的时间分类(CTC)(Graves等,2006)或基于笔画的方法。 其次,理论上,图像字幕任务使系统可以将注意力集中在任何地方,因此不能直接测试系统保持注意力持续一致的能力。

在这项工作中,我们探索使用基于注意力的图像到文本模型(Xu等人,2015)来解决生成结构化标记的问题。 我们考虑一种监督模型是否可以学习从图像生成正确的表示标记,而无需底层标记语言的文本或视觉语法。 我们的模型将图像上的多层卷积网络与基于注意力的递归神经网络解码器结合在一起。 为了使该模型适应OCR问题并捕获文档的布局,我们还以多行循环模型的形式并入了一个新的源编码器层,作为编码器的一部分。

我们的建模贡献是双重的。 首先,我们表明神经OCR不需要像基于CTC的模型中固有的从左到右排序这样的假设,因为通用编码器可以提供必要的跟踪以进行准确的关注(示例如图1所示)。 其次,为了减少注意力计算的开销,我们引入了一种新颖的两层硬-软注意力方法,我们将这种方法称为“从粗到精”注意力,这一方法受到了从粗到精推理的启发。在先前的几篇著作中,也探索了稀疏记号和条件计算与神经网络的连接,并取得了不同程度的成功。我们在这里证明,使用REINFORCE进行训练时,这种从粗到精的方法可以显着减少注意力的开销,并且只会导致准确性的小幅下降。
在这里插入图片描述
为了使这些实验成为可能,我们还构建了一个新的公共数据集IM2LATEX-100K,其中包含从已发表的文章中收集的大量渲染的真实世界数学表达式2。 该数据集基于从渲染的图像重建数学标记(最初由科学家编写),为图像标记任务提供了具有挑战性的测试平台。 经过训练的模型可以生成LaTeX标记,其目的是要获得准确的源图像。

实验将模型的输出与其他研究和商业基准以及这些模型的烧蚀进行了比较。 完整的数学表达式生成系统能够在超过75%的实际测试示例中重现相同的图像。 另外,使用多行编码器可显着提高性能。 我们还尝试对数据集的模拟手写版本进行训练,以识别手写文本表达。

即使只有很小的域内训练集,该模型也能够产生超过30%的精确匹配输出。 所有数据,模型和评估脚本均可在上公开获得。http://lstm.seas.harvard.edu/latex/

2. Problem: Image-to-Markup Generation

我们将图像到标记的问题定义为将渲染的源图像转换为完全描述其内容和布局的目标表示标记。 源x由图像组成。 目标y由标记y1,y2,…,yT的序列组成,其中T是输出的长度,每个y是标记语言中的标记。 呈现由可能未知的多对一编译函数compile定义。 在实践中,此功能可能非常复杂(例如,浏览器),或者指定不正确(例如,浏览器)。 LaTeX语言。

**监督的任务是学习使用其行为的监督示例来近似反转编译功能。 我们假设给定实例(x,y),它们的尺寸可能不同,并且针对所有训练对(x,y)编译(y)≈x(假设可能存在噪声)。

在测试时,系统会根据地面真实情况y给出原始输入x。 它生成一个假设yˆ,然后可以通过黑盒函数xˆ = compile(yˆ)对其进行渲染。 评估是在xˆ和x之间进行的,也就是说,目的是产生类似的渲染图像,而yˆ可能与真实标记y相似,也可能不相似。**

3. Model

与过去有关神经OCR的大多数工作相反,我们的模型在输入图像上使用了完整的网格编码器,因此它可以支持生成的标记中从左到右的顺序。 基本模型改编自Xu等人的编码器。 (2015)为图像字幕开发。 但是,值得注意的是,我们的模型还包括一个行编码器,可帮助提高系统性能。

该模型首先使用卷积神经网络(CNN)提取图像特征,然后将特征排列在网格中。 然后使用递归神经网络(RNN)对每一行进行编码。 然后,具有视觉注意机制的RNN解码器将使用这些编码的功能。 解码器在词汇表上实现条件语言模型,并训练整个模型以使观察到的标记的可能性最大化。 完整结构如图2所示。

在这里插入图片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章