點擊下方“AI算法與圖像處理”,一起進步!
重磅乾貨,第一時間送達
本文簡要介紹2021年5月被Pattern Recognition錄用論文“Stroke constrained attention network for online handwritten mathematical expression recognition”的主要工作。該論文是2019年發表在ICDAR上的文章[1]的升級版,本文以筆畫爲建模單位,提出了 Stroke Constrained Attention Network (SCAN),該模型可以被用於單模態(在線/離線)和多模態公式識別上,在CROHME數據集上的實驗證明,該模型取得了SOTA的效果。
一、研究背景
二. 原理概述
圖1 SCAN的整體框架圖
1. 單模態SCAN
1.1 筆畫掩膜
1.2 在線編碼器
圖2 在線編碼器的網絡結構
在線編碼器是由1D的DenseNet-20和多層GRU組成。由於在線輸入向量大小爲8x1x1,DenseNet中的卷積核大小由 3x3改爲1x3。DenseNet的輸出特徵圖大小爲 1xLxD,可以轉化爲 L個D維向量。爲了捕獲輸入軌跡點的上下文信息,特徵圖再經過GRU進一步編碼,得到軌跡特徵,其爲一個長度爲L的D維特徵向量序列。然後,利用在線筆畫掩膜集合,將每個在線筆畫掩膜進行次數等於在線卷積神經網絡中池化層層數的下采樣操作,將其從N維向量轉爲L維向量。然後通過以下公式,得到在線筆畫特徵:
1.3 離線編碼器
圖3 離線編碼器的網絡結構
靜態圖像經過離線編碼器後,得到的像素特徵矩陣B,利用離線筆畫掩膜集合,將像素特徵B轉爲離線筆畫特徵。首先對每個離線筆畫掩膜進行次數等於離線編碼器中池化層數量的下采樣操作,將其轉爲離線特徵掩膜。通過以下公式,可計算得到離線筆畫特徵:
2.1 多模態解碼器 (MMSCAN-D)
圖4 二次注意力機制
在預注意模型的基礎上,利用精細注意模型生成多模態筆畫級上下文向量:
2.2 多模態編碼器融合 (MMSCAN-E)
藉助筆畫掩膜,在線軌跡點特徵和離線像素特徵可以被轉化爲在線和離線的筆畫級特徵,這兩者有天然的一一對應關係,因此作者提出在編碼器階段,對兩個模態進行早期融合。
圖5 多模態編碼器的網絡結構
2.3 編碼器-解碼器融合 (MMSCAN-ED)
三. 實驗結果
1. 提出的單模態SCAN模型是否比其他在線模型有效
2.採用編碼/解碼器融合的多模態模型是否有效
由表4/5可知,採用筆畫級別的編碼器-解碼器融合方式(MMSCAN-ED),取得了最好的效果。
表4 不同多模態方法在CROHME 2014和CROHME 2016測試集上的性能比較
3. 注意力可視化
由圖6可見,MMSCAN-E在每一步生成精確的注意結果,並正確識別示例表達式。這表明了早期融合的優越性,可以更好地利用在線和離線模式之間的對齊關係。
4. 時間複雜度分析
由表6可見,單模態下,由於筆畫的數量遠小於軌跡點/像素的數量,基於筆畫建模的OnSCAN/OffSCAN模型消耗更少的時間。同理,在多模態情況下,MMSCAN-D比E-MAN更快,因爲MMSCAN-D同時用在線和離線筆畫級特徵替換軌跡點級和像素級特徵。MMSCAN- ED模型具有最好的識別性能,但計算代價最高。
圖6 MMSCAN-E和MMSCAN-D的注意力可視化和識別結果
表6 不同模態方法的識別率和時間效率對比
5. 與其他SOTA方法的比較
表7 與其他SOTA方法在CROHME 2014和2016 測試集上的性能比較
注:表中參考文獻見原文。
論文資源
https://www.sciencedirect.com/science/article/pii/S003132032100234X
參考文獻
[1]. J. Wang , J. Du , J. Zhang , Z.-R. Wang , Multi-modal attention network for hand- written mathematical expression recognition, in: International Conference on Document Analysis and Recognition, 2019, pp. 1181–1186 .
原文作者: Jiaming Wang, Jun Du, Jianshu Zhang, Bin Wang, Bo Ren
免責聲明:(1)本文僅代表撰稿者觀點,撰稿者不一定是原文作者,其個人理解及總結不一定準確及全面,論文完整思想及論點應以原論文爲準。(2)本文觀點不代表本公衆號立場。
努力分享優質的計算機視覺相關內容,歡迎關注:
個人微信(如果沒有備註不拉羣!)
請註明:
地區+學校/企業+研究方向+暱稱
下載1:何愷明頂會分享
在「AI算法與圖像處理」公衆號後臺回覆:何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經典工作的總結分析
下載2:終身受益的編程指南:Google編程風格指南
在「AI算法與圖像處理」公衆號後臺回覆:c++,即可下載。歷經十年考驗,最權威的編程規範!
下載3 CVPR2021
在「AI算法與圖像處理」公衆號後臺回覆:
CVPR
,即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文
點亮 ,告訴大家你也在看
本文分享自微信公衆號 - AI算法與圖像處理(AI_study)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。