【字符識別 end-to-end】SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

原創

2020-06-27 15:04

論文鏈接：https://arxiv.org/pdf/2005.10977.pdf

代碼鏈接：https://github.com/Pay20Y/SEED（目前還沒更新）

該論文主要用途：解決圖像中字符缺損，模糊等樣本的識別（這也是吸引我的地方）；該方法是在注意力方法的基礎上添加了新的策略，提到注意力，可能出現的問題就是模型的運行時間，所以該方法可不可以實際使用，還待考量。（本人愚見，若有不同請留言，謝謝！）

Abstract

Method

1.Encoder-Decoder Framework

2.FastText Model

3. Architecture of Semantic Enchanced ASTER

4.Loss Function and Training Strategy

Abstract

1.文字識別中常用的編碼解碼框架可用於處理透視失真（perspective distortion）和曲線形狀（curve shape）的文字，但是依然無法處理：圖像模糊，明暗不均衡的圖像，以及字符不完整的圖像。

2.作者認爲當前的識別方法都是基於局部視覺特徵，而不是採用的全局語義信息。

基於以上兩點，作者提出了語義增強的編碼-解碼框架用於識別低質量的場景文字。語義信息用於監督編碼模塊，初始化解碼模塊。同時作者將ASTER方法整合到給方法中來（作爲一個範例），實現了端對端的識別。

作者提出了語義信息（semantic information）用於全局信息的預測。語義信息有兩個優勢：1）在自然語言處理領域，可通過詞嵌入（word embeding）進行監督；2）可用於減少視覺特徵編碼器和語言信息解碼器的gap。

Method

1.Encoder-Decoder Framework

圖2（a）成爲palin encoder-decoder框架，編碼器提取豐富的特徵，產生上下文矢量（context vector）C包括輸入的全局信息，然後解碼器將上下文矢量轉換爲目標輸出。輸入輸入在不同的任務上是不一樣的，例如：文本識別，輸入是圖像，輸出是圖像的文字信息。這種框架的缺點是：上下文在代表整個輸入的時候能力有限。

圖2（b）注意力機制嘗試在整個輸入和上下文之間創建捷徑（shortcut）。解碼器可以在每個解碼步驟中挑選合適的上下文，能夠解決長期依賴問題，以及對齊弱監督訓練中解碼和譯碼；

圖2（c）中作者的方法包括四個部分：1）編碼器，包括CNN主幹和RNN用於提取視覺特徵；2）語義模塊（semantic module）用於從視覺特徵中預測語義信息；3）預訓練的語言模型用於語義模塊的的語義信息監督；4）解碼器，包括注意力機制的RNN產生識別結果；

在場景文本識別中，a和b兩種框架僅僅依賴譯碼器有限的視覺特徵，所以在處理低質量的圖像時能力有限。

在作者的方法中，使用全局的語義信息作爲引導。同時使用FastText【4】方法產生詞向量作爲語義信息的監督，解決了“out of vocabulary”的問題；

Out-of-vocabulary（OOV）：未登錄詞就是訓練時未出現，測試時出現了的單詞。在自然語言處理或者文本處理的時候，我們通常會有一個字詞庫（vocabulary）。這個vocabulary要麼是提前加載的，或者是自己定義的，或者是從當前數據集提取的。假設之後你有了另一個的數據集，這個數據集中有一些詞並不在你現有的vocabulary裏，我們就說這些詞彙是Out-of-vocabulary，簡稱OOV。
原文鏈接：https://blog.csdn.net/qq_38244371/article/details/92806233