在線手寫數學公式識別的筆畫約束注意力網絡 | PR2021

點擊下方AI算法與圖像處理”,一起進步!

重磅乾貨,第一時間送達

本文簡要介紹2021年5月被Pattern Recognition錄用論文“Stroke constrained attention network for online handwritten mathematical expression recognition”的主要工作。該論文是2019年發表在ICDAR上的文章[1]的升級版,本文以筆畫爲建模單位,提出了 Stroke Constrained Attention Network (SCAN),該模型可以被用於單模態(在線/離線)和多模態公式識別上,在CROHME數據集上的實驗證明,該模型取得了SOTA的效果。

一、研究背景



現有的基於編碼解碼模型的手寫數學公式識別方法,根據輸入模態的不同,可以分爲在線手寫數學公式識別[2]和離線手寫數學公式[3][4]識別兩種。對於在線手寫數學公式識別,輸入爲動態軌跡點序列,因此包含豐富的時序信息,能夠比較好地解決視覺歧義等問題,但同時容易受到書寫順序等問題的影響,出現識別錯誤。離線手寫數學公式識別則正好相反,其輸入爲靜態圖片,因此擁有全局的視覺信息,能比較好地解決在線手寫數學公式識別中由於書寫順序等造成的問題。然而,由於缺少時序信息,離線手寫數學公式識別難以解決視覺歧義等問題。可見,在線和離線兩種模態之間是存在互補性的,有效地融合兩種模態信息,可有助於識別效果的提升。多模態手寫數學公式識別的原始輸入是書寫過程中保存下來的軌跡點序列,因此是有筆畫信息的,即每個筆畫包括了哪些軌跡點和像素點是已知的,從而可以將筆畫作爲基本建模單元。相比以軌跡點和像素點作爲基本建模單元的方法,以筆畫作爲基本建模單元能夠利用筆畫數遠少於軌跡點數和像素點數這一特點,降低注意力模型的學習難度和計算量,從而提高注意力模型的準確性和效率。此外,筆畫建模還可以利用在線和離線筆畫特徵之間天然且準確的對齊關係,實現基於筆畫特徵的多模態編碼器融合。因此,本文提出融合在線和離線模態的信息,以筆畫作爲基本建模單元,通過多模態的形式來對手寫數學公式進行識別。

二. 原理概述



1  SCAN的整體框架圖

1. 單模態SCAN

1.1 筆畫掩膜

對於任意一個數學公式,假設其包含 個筆畫, 在線輸入包括 個軌跡點,離線輸入的圖片大小爲 。對於在線模態,由於有筆畫信息,即已知每個軌跡點屬於哪個筆畫,故可以基於此來給每個筆畫生成一個對應的在線筆畫掩膜。具體而言,所有筆畫對應的在線筆畫掩膜集合可以定義爲 ,其中任意一個元素 表示第個筆畫對應的在線筆畫掩膜,它是一個維向量,向量中的每個元素的值爲1或0,表示對應軌跡點是否屬於當前筆畫。例如,假設的第 維的值爲1,則表示第個軌跡點屬於第 個筆畫,反之不屬於。
對於離線模態,由於其是通過在線軌跡點生成的,因此同樣可以記錄下哪些像素點屬於同一個筆畫,從而給每一個筆畫生成一個對應的離線筆畫掩膜。具體而言,所有筆畫對應的離線筆畫掩膜集合可以定義爲 , 其中任意一個元素 表示第個筆畫對應的離線筆畫掩膜,它是一個維度 的矩陣,矩陣中的每個元素的值爲1或0,表示對應像素點是否屬於當前筆畫。例如,假設的第(h,w)維的值爲1,則表示第(h,w)位置的像素點屬於第個筆畫,反之不屬於。

1.2 在線編碼器 

在線編碼器的網絡結構

在線編碼器是由1DDenseNet-20和多層GRU組成。由於在線輸入向量大小爲8x1x1DenseNet中的卷積核大小由 3x3改爲1x3DenseNet的輸出特徵圖大小爲 1xLxD,可以轉化爲 LD向量。爲了捕獲輸入軌跡點的上下文信息,特徵圖再經過GRU進一步編碼,得到軌跡特徵,其爲一個長度爲L的D維特徵向量序列。然後,利用在線筆畫掩膜集合,將每個在線筆畫掩膜進行次數等於在線卷積神經網絡中池化層層數的下采樣操作,將其從N維向量轉爲L維向量。然後通過以下公式,得到在線筆畫特徵:

1.3 離線編碼器

3  離線編碼器的網絡結構

靜態圖像經過離線編碼器後,得到的像素特徵矩陣B,利用離線筆畫掩膜集合,將像素特徵B轉爲離線筆畫特徵。首先對每個離線筆畫掩膜進行次數等於離線編碼器中池化層數量的下采樣操作,將其轉爲離線特徵掩膜。通過以下公式,可計算得到離線筆畫特徵:

2. 多模態SCAN
通過在線編碼器和離線編碼器得到筆畫級的特徵 後,結合軌跡點特徵和像素點特徵,作者提出瞭解碼器融合(MMSCAN-D)、編碼器融合(MMSCAN-E)、編解碼器融合(MMSCAN-ED) 三種融合方式。

2.1 多模態解碼器 (MMSCAN-D)

圖4 二次注意力機制

多模態解碼器以在線筆畫特徵和離線筆畫特徵作爲輸入,輸出一個LaTeX 序列來作爲最終的識別結果。爲了充分利用在線離線信息,作者設計了一個二次注意力機制。多模態解碼器包括兩個GRU和一個帶指導機制的二次注意力模型,二次注意力模型分爲預注意力模型和精細注意力模型兩個階段。首先,預注意力模型的計算公式如下: 
分別表示在線和離線模態對應的注意力權重。
根據計算得到的在線和離線模態的注意力權重,分別對軌跡特徵 和像素特徵進行加權求和,可以得到兩個單模態上下文向量:

在預注意模型的基礎上,利用精細注意模型生成多模態筆畫級上下文向量: 

最後,可以得到多模態筆畫級上下文向量:

2.2 多模態編碼器融合 (MMSCAN-E)

藉助筆畫掩膜,在線軌跡點特徵和離線像素特徵可以被轉化爲在線和離線的筆畫級特徵,這兩者有天然的一一對應關係,因此作者提出在編碼器階段,對兩個模態進行早期融合。

圖5 多模態編碼器的網絡結構

如圖5所示,待識別的手寫數學公式爲 ,其包括“Σ”,“ ”,“+”和“S”總共4個符號,除了“+”對應2個筆畫之外,其餘每個符號均對應 1 個筆畫,因此總共有 5 個筆畫。通過多模態編碼器的在線通道和離線通道,可以從在線軌跡輸入和離線圖像輸入中分別提取得到軌跡特徵和像素特徵,並利用在線和離線筆畫掩膜,將軌跡特徵和像素特徵分別轉成在線和離線筆畫特徵。值得注意的是,此時的在線筆畫特徵和離線筆畫特徵之間是準確對齊的,即兩者的特徵數量相同,均等於筆畫數;並且,每個在線和離線筆畫特徵都是待識別的數學公式中的某一個筆畫在線和離線的高維表徵,因此是一一對應的。
根據這一準確的對齊關係,將在線和離線筆畫特徵進行拼接,作爲後續解碼器的輸入 ,具體實現方式如下: 

2.3 編碼器-解碼器融 (MMSCAN-ED)

除了分別在解碼器和編碼器階段,融合筆畫級的兩個模態信息外,作者還提出同時輸入在線軌跡點特徵、離線像素特徵和筆畫特徵到多模態解碼器中,即一種編碼器-解碼器融合的方法。
具體來說,首先使用編碼器提取軌跡點級特徵A和像素級特徵B,並將它們轉換爲在線筆畫級特徵 和離線筆畫級特徵 。基於在線和離線的筆畫特徵,利用多模態編碼器融合可以獲得多模態的筆畫級特徵 。在解碼時,作者同時向解碼器提供多模態筆畫級、在線軌跡點級和離線像素級特徵。基於二次注意力模型,在解碼器融合的第一階段,採用預注意模型計算多模態筆畫級、點級和像素級上下文向量:

第二階段採用精細注意模型生成多模態多層次上下文向量 ,首先將三個上下文向量兩兩連接起來:

然後,精細注意模型可以表示爲:

最後,多模態多層次上下文向量爲:

三. 實驗結果



1. 提出的單模態SCAN模型是否比其他在線模型有效

 對不同編解碼器的性能CROHME1416數據集上進行在線模態比較
2  對不同編解碼器的性能CROHME1416數據集上進行離線模態比較
3  對不同編解碼器的性能CROHME19數據集上進行在線和離線模態比較 

2採用編碼/解碼器融合的多模態模型是否有效

由表4/5可知,採用筆畫級別的編碼器-解碼器融合方式(MMSCAN-ED),取得了最好的效果。

4  不同多模態方法在CROHME 2014CROHME 2016測試集上的性能比較

5  不同多模態方法在CROHME 2019測試集上的性能比較

3. 注意力可視化

由圖6可見,MMSCAN-E在每一步生成精確的注意結果,並正確識別示例表達式。這表明了早期融合的優越性,可以更好地利用在線和離線模式之間的對齊關係。 

4. 時間複雜度分析

由表6可見,單模態下,由於筆畫的數量遠小於軌跡點/像素的數量,基於筆畫建模的OnSCAN/OffSCAN模型消耗更少的時間。同理,在多模態情況下,MMSCAN-DE-MAN更快,因爲MMSCAN-D同時用在線和離線筆畫級特徵替換軌跡點級和像素級特徵。MMSCAN- ED模型具有最好的識別性能,但計算代價最高。 

圖6  MMSCAN-EMMSCAN-D的注意力可視化和識別結果 

 不同模態方法的識別率和時間效率對比 

5. 與其他SOTA方法的比較

7  與其他SOTA方法在CROHME 20142016 測試集上的性能比較

注:表中參考文獻見原文。

論文資源



‍‍ 本論文下載鏈接:

https://www.sciencedirect.com/science/article/pii/S003132032100234X 

參考文獻



[1]. J. Wang , J. Du , J. Zhang , Z.-R. Wang , Multi-modal attention network for hand- written mathematical expression recognition, in: International Conference on Document Analysis and Recognition, 2019, pp. 1181–1186 .

[2]. J. Zhang , J. Du , L. Dai , Track, attend and parse (TAP): an end-to-end frame- work for online handwritten mathematical expression recognition, IEEE Trans Multimedia 21 (1) (2019) 221–233 .
[3]. J. Zhang, et al, “Watch, attend and parse: An end-to-end neural network based approach to handwritten mathematical expression recognition,” Pattern Recognition, vol. 71, pp. 196-206, 2017.
[4]. Y. Deng , A. Kanervisto , J. Ling , A.M. Rush , Image-to-markup generation with coarse-to-fine attention, in: International Conference on Machine Learning, 2017, pp. 980–989 .

原文作者: Jiaming Wang, Jun Du, Jianshu Zhang, Bin Wang, Bo Ren


撰稿:李雲青
編排:高   學
審校:殷   飛
發佈:金連文

 


免責聲明:1)本文僅代表撰稿者觀點,撰稿者不一定是原文作者,其個人理解及總結不一定準確及全面,論文完整思想及論點應以原論文爲準。(2)本文觀點不代表本公衆號立場。 


努力分享優質的計算機視覺相關內容,歡迎關注:

  
             
             
             
個人微信(如果沒有備註不拉羣!
請註明: 地區+學校/企業+研究方向+暱稱



下載1:何愷明頂會分享


AI算法與圖像處理」公衆號後臺回覆:何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經典工作的總結分析


下載2:終身受益的編程指南:Google編程風格指南


AI算法與圖像處理」公衆號後臺回覆:c++,即可下載。歷經十年考驗,最權威的編程規範!




           
           
           
下載3 CVPR2021

AI算法與圖像處公衆號後臺回覆: CVPR 即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文

點亮 ,告訴大家你也在看



本文分享自微信公衆號 - AI算法與圖像處理(AI_study)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章