自然場景文本處理論文整理(3)Mask TextSpotter

這篇論文是2018年7月6號出來的,對於任意形狀的自然文本檢測識別效果非常好。
paper:https://arxiv.org/abs/1807.02242
目前無相關源碼

1.摘要簡介

在本文中,我們提出了一個名爲Mask TextSpotter的文本監視器,它可以檢測和識別任意形狀的文本實例。 這裏,任意形狀意味着現實世界中可能呈現的各種形式的文本實例。 受Mask R-CNN [9]的啓發,它可以生成對象的形狀蒙版,我們通過分段實例文本區域來檢測文本。 因此,我們的探測器能夠檢測任意形狀的文本。 此外,與以前基於序列的識別方法[10,11,12]不同,我們通過二維空間中的語義分割識別文本,解決了閱讀不規則文本實例的問題。 此外,該方法的另一個優點是它不需要準確的識別位置。 因此,檢測任務和識別任務可以完全端到端地訓練,並受益於特徵共享和聯合優化。。
效果:
在ICDAR2015上,在單一尺度上進行評估,我們的方法在檢測任務上實現了0.86的F-測量,並且在端到端識別任務上優於先前的最佳表現者13.2%-25.3%。
本文的主要貢獻
(1)我們提出了一種用於文本定位的端到端可訓練模型,它具有簡單,流暢的訓練方案。
(2)所提出的方法可以檢測和識別各種形狀的文本,包括水平,定向和彎曲文本。
(3)與以前的方法相比,我們的方法中的精確文本檢測和識別是通過語義分割完成的。
(4)我們的方法在各種基準測試中實現了文本檢測和文本定位的最先進性能。

2.相關工作

我們框架中提議的文本識別組件可以歸類爲基於字符的方法。 然而,與之前基於字符的方法相比,我們使用FCN [40]來同時對字符進行本地化和分類。此外,與基於序列的方法相比,我們的方法更適合處理不規則文本(多向導向)
文本,彎曲文本等。我們提出的文本識別器不僅可以完全端到端地進行訓練,而且還具有檢測和識別任意形狀(水平,定向和彎曲)場景文本的能力。

一般對象檢測和語義分割
具體來說,我們的方法改編自通用對象實例分割模型Mask R-CNN [9]。 但是,我們的方法的掩碼分支與Mask R-CNN中的掩碼分支之間存在關鍵差異。 我們的掩碼分支不僅可以分割文本區域,還可以預測字符概率圖,這意味着我們的方法可以用於識別字符映射中的實例序列,而不僅僅是預測對象掩碼

3、實現

3.1框架
它由基於實例分割的文本檢測器和基於字符分割的文本識別器組成。
這裏寫圖片描述
Backbone
自然圖像中的骨幹文本大小各異。 爲了在所有尺度上構建高級語義特徵映射,我們應用了深度爲50的ResNet [50]的特徵金字塔結構[46]骨幹.FPN使用自上而下的架構來融合不同分辨率的特徵來自單個 - 輸入,可以提高邊際成本的準確性。

RPN
RPN用於爲後續的Fast-R-CNN生成文本提議和Mask分支。在[46]之後,我們根據錨點大小在不同階段分配錨點。 具體來說,錨點的面積分別設置爲五個階段{P 2,P 3,P 4,P 5,P 6}上的{32 2,64 2,128 2,256 2,512 2}像素。在[33]中的每個階段也採用不同的寬高比{0.5,1,2}。這樣,RPN可以處理各種大小和寬高比的文本。 RoI Align [9]適用於提取提案的區域特徵。 與RoI Pooling [44]相比,RoI Align保留了更準確的位置信息,這對掩碼分支中的分段任務非常有利。 請注意,沒有采用特殊的文本設計,例如文本錨的特殊寬高比或方向,如之前的作品[1,24,23]。

Fast-R-CNN
Fast-R-CNN分支包括分類任務和迴歸任務。 該分支的主要功能是提供更準確的檢測邊界框。 Fast-R-CNN的輸入爲7×7分辨率,由RoI Align根據RPN提出的提議生成。

掩碼分支
掩碼分支中有兩個任務,包括全局文本實例分段任務和字符分段任務。 如圖3所示,通過四個卷積層和一個去卷積層給出一個輸入RoI,其大小固定爲16 * 64,掩碼分支預測38個映射(大小爲32 * 128),包括全局文本 實例映射,36個字符映射和字符的背景映射。 無論文本實例的形狀如何,全局文本實例映射都可以提供文本區域的準確定位。字符映射是36個字符的映射,包括26個字母和10個阿拉伯數字。 後處理也需要排除字符區域的字符背景圖。
這裏寫圖片描述
圖3:掩模分支的圖示。 隨後,有四個卷積層,一個去卷積層和一個最終卷積層,它預測38個通道的映射(1個用於全局文本實例映射; 36個用於字符映射; 1個用於字符的背景映射)。

3.2標籤生成

這裏寫圖片描述
圖4:掩模分支的標籤生成。 左:藍框是由RPN產生的建議,紅色多邊形和黃色框是地面真實多邊形和字符框,綠色框是水平矩形,覆蓋多邊形區域。 右:全局地圖(頂部)和角色地圖(底部)。

我們首先將多邊形轉換爲水平矩形,以最小的面積覆蓋多邊形。 然後我們在[44,33,46]之後生成RPN和Fast-R-CNN的目標。 爲掩模分支生成兩種類型的目標圖,其具有基礎事實P,C(可能不存在)以及由RPN產生的提議:用於文本實例分割的全局圖和用於字符語義分割的字符圖。。 給定一個積極的提議r,我們首先使用[44,33,46]的匹配機制來獲得最佳匹配的水平矩形。 可以進一步獲得相應的多邊形以及字符(如果有的話)。 接下來,匹配的多邊形和字符框isMask TextSpotter 7移位並調整大小以使提案與H×W的目標地圖對齊,如下面的公式:
這裏寫圖片描述
其中(B x,B y)和(B x 0,B y 0)是多邊形和所有字符框的更新和原始頂點; (r x,r y)是提議r的頂點。

3.3優化
這裏寫圖片描述
文本實例分段損失
文本實例分段任務的輸出是單個映射。 設N是全局映射中的像素數,y n是像素標籤(yn∈0,1),x n是輸出像素,我們定義L全局
如下:
這裏寫圖片描述
字符分段損失
字符分割的輸出由37個映射組成,對應於37個類(36個字符類和背景類)。 令T爲類的數量,N爲每個地圖中的像素數。 輸出映射X可以被視爲N×T矩陣。 這樣,加權空間 - 最大損失可以定義如下:
這裏寫圖片描述
其中Y是X的相應基本事實。權重W用於平衡積極(字符類)和背景類的損失值。 設背景像素的數量爲N neg,背景類索引爲0,權重可以計算爲:
這裏寫圖片描述
注意,在推理中,應用sigmoid函數和soft-max函數分別生成全局映射和字符分割映射。

3.4推理
與掩模分支的輸入RoI來自RPN的訓練過程不同,在推理階段,我們使用Fast-R-CNN的輸出作爲生成預測的全局地圖和字符映射的建議,因爲Fast-R-CNN輸出是 更準確。 特別地,推理過程如下:首先,輸入測試圖像,我們獲得快速R-CNN的輸出[33]並通過NMS過濾掉冗餘候選框; 然後,將保留的提議輸入掩碼分支以生成全局映射和字符映射; 最後,通過計算全局地圖上文本區域的輪廓可以直接獲得預測的多邊形,可以通過我們提出的像素生成字符序列字符映射的投票算法。
這裏寫圖片描述
像素投票
我們通過我們提出的像素投票算法將預測的字符映射解碼爲字符序列。 我們首先將背景圖二進制二值化爲0到255,閾值爲192.然後我們根據二值化地圖中的連通區域獲取所有字符區域。 我們計算所有字符映射的每個區域的平均值。 這些值可以看作該區域的字符類概率。 具有最大平均值的字符類將分配給該區域。 算法1中顯示了具體的過程。之後,我們根據英語的寫作習慣將所有字符從左到右分組。 詳細的計算在本文的算法1中描述。

加權編輯距離
編輯距離可用於查找具有給定詞典的預測序列的最佳匹配單詞。 但是,可能存在多個與最小編輯距離同時匹配的單詞,並且算法無法確定哪個單詞是最佳的。 上述問題的主要原因是原始編輯距離算法中的所有操作(刪除,插入,替換)具有相同的成本,實際上沒有意義。
這裏寫圖片描述
圖6:編輯距離和我們建議的加權編輯距離的圖示。紅色字符是將被刪除,插入和替換的字符。綠色字符表示候選字符。 p cindex是字符概率,index是字符索引,c是當前字符。

受[51]的啓發,我們提出了一種加權編輯距離算法。 如圖6所示,與編輯距離不同,編輯距離爲不同的操作分配相同的成本,我們提出的加權編輯距離的成本取決於像素投票產生的字符概率p cindex。 數學上,兩個字符串a和b之間的加權編輯距離,其長度爲| a | 和| b | 分別可以描述爲D a,b(| a |,| b |),其中:
這裏寫圖片描述

4.實驗結果

在不同的數據集上表現良好。
這裏寫圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章