TextScanner 閱讀筆記

Textscanner 閱讀筆記

 

Motivaction:

(1):在文本識別領域,從語音識別,以及NLP中學來的基於RNN-attention-based的方法主宰了文本識別領域,在大多數情況下,基於RNN注意的方法通常效果很好。但是,當背景中出現噪音或文本形狀不規則時,注意機制可能無法使估計的注意圖的中心對準錯誤的位置,從而導致字符順序和類別錯誤(請參見圖1)。更嚴重的是,由於RNN模塊中的循環存儲機制,此類錯誤將累積並傳播,使情況變得更糟。

          (2):基於語義分割的算法探索了不同的方式,並且展現出了對不同形狀(水平,定向和彎曲)文本的更強適應性。然而,由於不正確的二值化會導致這樣的尷尬,因此很難成功地將每個字符與分割圖分開:一個字符可能會分成多個部分,或者多個字符可能會粘在一起(見圖1)。在這些情況下,字符數量和類別的預測將是錯誤的。總之,現有的方法,無論是基於RNN注意力還是基於語義分割,都不能令人滿意地解決場景文本識別中的難題。

 

 

                                  圖(1)

 

主要貢獻:

 (1)提出了一種新穎的文本識別框架,該框架可預測具有兩個單獨分支的字符的類別信息和幾何信息(位置和順序)。

  (2) 我們設計了一種相互監督的機制,使該框架能夠利用生成的數據和真實數據進行來訓練,解決基於字符訓練,數據集不足的問題。

(3)提出的TextScanner在公開數據集上達到了最先進的或極具競爭力的性能。

(4)TextScanner對較長和更復雜的文本,具有更強的適應性。

 

詳細解讀

     網絡結構:

       (1)class分支

 

  

Class分支產生字符分割圖G,大小爲(h*w*c),h,w爲長寬,c通道數(大小爲總共字符有多少個類別,以及是否爲背景圖,分割圖G是cnn的主幹網絡提取特徵後,再分別經過大小爲3*3,和1*1大小的卷積核後再經過softmax最後產生分割圖G。

 

  1. Geometry分支

 

            該部分分爲localization map Q,和order segmentation map S,Q圖的 大小爲(h*w),同樣的類似於classify分支,經過主幹網絡提取的特徵feature部分,圖中綠色部分後,經過sigmod激活函數得到。而圖S如圖所示,主幹網絡得到feature後經過FPN,注意上層中採用GRU模塊,最後得到的S圖和Q圖經過Q*S,最終得到order map H,H=Q*S

  1. 實驗結果:

實驗表明,所提出的TextScanner在公共基準上達到了最先進的或極具競爭力的性能.TextScanner對更長,更復雜的文本(例如中文腳本)表現出更強的適應性。實驗結果清楚地表明瞭幾何分支及其解碼過程(表3中的第二行和第三行)帶來的改進。由於順序圖確保以正確的順序掃描字符,因此識別性能顯着提高,尤其是在不規則數據集上:IC15上爲7.4%,SVTP上爲10.2%。

發佈了71 篇原創文章 · 獲贊 16 · 訪問量 3萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章