數學公式識別論文一:Image-to-Markup Generation with Coarse-to-Fine Attention

標題:Image-to-Markup Generation with Coarse-to-Fine Attention(圖像到標記的生成具有由粗到精的注意力機制)
發表日期:2017年6月13
作者:Yuntian Deng 1 Anssi Kanervisto

Abstract

我們提出了一種神經編碼器-解碼器模型,用於基於可擴展的從粗到精注意機制將圖像轉換爲表示標記。 我們的方法是在圖像到LaTeX生成的上下文中進行評估的,我們引入了一個新的真實世界渲染數學表達式與LaTeX標記配對的數據集。

我們證明,與使用基於CTC的模型的神經OCR技術不同,基於注意力的方法可以解決這一非標準的OCR任務。 我們的方法在域內渲染的數據上大大優於傳統的數學OCR系統,並且經過預訓練,在域外的手寫數據上也表現出色。 爲了減少與基於注意力的方法相關的推理複雜性,我們引入了一個新的從粗到精的注意力層,該層在應用注意力之前先選擇一個支持區域。

1. Introduction

光學字符識別(OCR)最常用於識別圖像中的自然語言。 **然而,早在安德森(Anderson,1967)的著作中,就已經有研究興趣將圖像轉換爲結構化語言或標記,從而定義文本本身及其表示語義。**這項研究的主要目標是用於數學表達式的OCR,以及如何處理表示方面,例如子和上標符號,特殊符號和嵌套分數(Belaid&Haton,1984; Chan&Yeung,2000)。 最有效的系統將專門的字符分割與基礎數學佈局語言的語法結合在一起(Miller&Viola,1998)。這種方法的主要例子是INFTY系統,該系統用於將打印的數學表達式轉換爲LaTeX和其他標記格式(Suzuki等,2003)。

作爲CROHME手寫數學挑戰賽的一部分,其他主要是專有系統也參與了這項任務的競爭(Mouchere等人,2013; 2014)。

由於在這兩個領域中對深層神經模型的改進,OCR之類的問題需要對圖像和文本數據進行聯合處理,因此近來研究興趣日益增加。 例如,在手寫識別(Ciresan等,2010),自然場景中的OCR(Jaderberg等,2015; 2016; Wang等,2012)和圖像標題生成(Karpathy& Fei-Fei,2015; Vinyals等,2015)。在**較高級別上,這些系統中的每一個都學習輸入圖像的抽象編碼表示,然後將其解碼以生成文本輸出。 除了在標準任務上執行得很好之外,這些模型完全由數據驅動,這使得它們可以適應各種數據集,**而無需進行大量的預處理或特定領域的工程。

但是,我們注意到諸如圖像字幕之類的任務與傳統的數學OCR任務在兩個方面有所不同:首先,與圖像字幕不同,傳統的OCR任務採用從左到右的順序,因此解決這個問題的神經系統主要具有 依賴於連接主義的時間分類(CTC)(Graves等,2006)或基於筆畫的方法。 其次,理論上,圖像字幕任務使系統可以將注意力集中在任何地方,因此不能直接測試系統保持注意力持續一致的能力。

在這項工作中,我們探索使用基於注意力的圖像到文本模型(Xu等人,2015)來解決生成結構化標記的問題。 我們考慮一種監督模型是否可以學習從圖像生成正確的表示標記,而無需底層標記語言的文本或視覺語法。 我們的模型將圖像上的多層卷積網絡與基於注意力的遞歸神經網絡解碼器結合在一起。 爲了使該模型適應OCR問題並捕獲文檔的佈局,我們還以多行循環模型的形式併入了一個新的源編碼器層,作爲編碼器的一部分。

我們的建模貢獻是雙重的。 首先,我們表明神經OCR不需要像基於CTC的模型中固有的從左到右排序這樣的假設,因爲通用編碼器可以提供必要的跟蹤以進行準確的關注(示例如圖1所示)。 其次,爲了減少注意力計算的開銷,我們引入了一種新穎的兩層硬-軟注意力方法,我們將這種方法稱爲“從粗到精”注意力,這一方法受到了從粗到精推理的啓發。在先前的幾篇著作中,也探索了稀疏記號和條件計算與神經網絡的連接,並取得了不同程度的成功。我們在這裏證明,使用REINFORCE進行訓練時,這種從粗到精的方法可以顯着減少注意力的開銷,並且只會導致準確性的小幅下降。
在這裏插入圖片描述
爲了使這些實驗成爲可能,我們還構建了一個新的公共數據集IM2LATEX-100K,其中包含從已發表的文章中收集的大量渲染的真實世界數學表達式2。 該數據集基於從渲染的圖像重建數學標記(最初由科學家編寫),爲圖像標記任務提供了具有挑戰性的測試平臺。 經過訓練的模型可以生成LaTeX標記,其目的是要獲得準確的源圖像。

實驗將模型的輸出與其他研究和商業基準以及這些模型的燒蝕進行了比較。 完整的數學表達式生成系統能夠在超過75%的實際測試示例中重現相同的圖像。 另外,使用多行編碼器可顯着提高性能。 我們還嘗試對數據集的模擬手寫版本進行訓練,以識別手寫文本表達。

即使只有很小的域內訓練集,該模型也能夠產生超過30%的精確匹配輸出。 所有數據,模型和評估腳本均可在上公開獲得。http://lstm.seas.harvard.edu/latex/

2. Problem: Image-to-Markup Generation

我們將圖像到標記的問題定義爲將渲染的源圖像轉換爲完全描述其內容和佈局的目標表示標記。 源x由圖像組成。 目標y由標記y1,y2,…,yT的序列組成,其中T是輸出的長度,每個y是標記語言中的標記。 呈現由可能未知的多對一編譯函數compile定義。 在實踐中,此功能可能非常複雜(例如,瀏覽器),或者指定不正確(例如,瀏覽器)。 LaTeX語言。

**監督的任務是學習使用其行爲的監督示例來近似反轉編譯功能。 我們假設給定實例(x,y),它們的尺寸可能不同,並且針對所有訓練對(x,y)編譯(y)≈x(假設可能存在噪聲)。

在測試時,系統會根據地面真實情況y給出原始輸入x。 它生成一個假設yˆ,然後可以通過黑盒函數xˆ = compile(yˆ)對其進行渲染。 評估是在xˆ和x之間進行的,也就是說,目的是產生類似的渲染圖像,而yˆ可能與真實標記y相似,也可能不相似。**

3. Model

與過去有關神經OCR的大多數工作相反,我們的模型在輸入圖像上使用了完整的網格編碼器,因此它可以支持生成的標記中從左到右的順序。 基本模型改編自Xu等人的編碼器。 (2015)爲圖像字幕開發。 但是,值得注意的是,我們的模型還包括一個行編碼器,可幫助提高系統性能。

該模型首先使用卷積神經網絡(CNN)提取圖像特徵,然後將特徵排列在網格中。 然後使用遞歸神經網絡(RNN)對每一行進行編碼。 然後,具有視覺注意機制的RNN解碼器將使用這些編碼的功能。 解碼器在詞彙表上實現條件語言模型,並訓練整個模型以使觀察到的標記的可能性最大化。 完整結構如圖2所示。

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章