Textscanner 閱讀筆記
Motivaction:
(1):在文本識別領域,從語音識別,以及NLP中學來的基於RNN-attention-based的方法主宰了文本識別領域,在大多數情況下,基於RNN注意的方法通常效果很好。但是,當背景中出現噪音或文本形狀不規則時,注意機制可能無法使估計的注意圖的中心對準錯誤的位置,從而導致字符順序和類別錯誤(請參見圖1)。更嚴重的是,由於RNN模塊中的循環存儲機制,此類錯誤將累積並傳播,使情況變得更糟。
(2):基於語義分割的算法探索了不同的方式,並且展現出了對不同形狀(水平,定向和彎曲)文本的更強適應性。然而,由於不正確的二值化會導致這樣的尷尬,因此很難成功地將每個字符與分割圖分開:一個字符可能會分成多個部分,或者多個字符可能會粘在一起(見圖1)。在這些情況下,字符數量和類別的預測將是錯誤的。總之,現有的方法,無論是基於RNN注意力還是基於語義分割,都不能令人滿意地解決場景文本識別中的難題。
圖(1)
主要貢獻:
(1)提出了一種新穎的文本識別框架,該框架可預測具有兩個單獨分支的字符的類別信息和幾何信息(位置和順序)。
(2) 我們設計了一種相互監督的機制,使該框架能夠利用生成的數據和真實數據進行來訓練,解決基於字符訓練,數據集不足的問題。
(3)提出的TextScanner在公開數據集上達到了最先進的或極具競爭力的性能。
(4)TextScanner對較長和更復雜的文本,具有更強的適應性。
詳細解讀
網絡結構:
(1)class分支
Class分支產生字符分割圖G,大小爲(h*w*c),h,w爲長寬,c通道數(大小爲總共字符有多少個類別,以及是否爲背景圖,分割圖G是cnn的主幹網絡提取特徵後,再分別經過大小爲3*3,和1*1大小的卷積核後再經過softmax最後產生分割圖G。
- Geometry分支
該部分分爲localization map Q,和order segmentation map S,Q圖的 大小爲(h*w),同樣的類似於classify分支,經過主幹網絡提取的特徵feature部分,圖中綠色部分後,經過sigmod激活函數得到。而圖S如圖所示,主幹網絡得到feature後經過FPN,注意上層中採用GRU模塊,最後得到的S圖和Q圖經過Q*S,最終得到order map H,H=Q*S
- 實驗結果:
實驗表明,所提出的TextScanner在公共基準上達到了最先進的或極具競爭力的性能.TextScanner對更長,更復雜的文本(例如中文腳本)表現出更強的適應性。實驗結果清楚地表明瞭幾何分支及其解碼過程(表3中的第二行和第三行)帶來的改進。由於順序圖確保以正確的順序掃描字符,因此識別性能顯着提高,尤其是在不規則數據集上:IC15上爲7.4%,SVTP上爲10.2%。