(六)CRAFT----2019CVPR論文解讀

Character Region Awareness for Text Detection

Abstract

近年來出現了基於神經網絡的場景文本檢測方法,並取得了良好的效果。以前使用剛性詞級邊界框訓練的方法在以任意形狀表示文本區域方面表現出侷限性。本文提出了一種新的場景文本檢測方法,通過挖掘每個字符和字符之間的親和度來有效地檢測文本區域。爲了克服單個字符級標註的不足,我們提出的框架既利用了給定的合成圖像的字符級標註,也利用了通過學習的臨時模型獲取的真實圖像的估計的字符級地面事實。爲了估計角色之間的親和度,用新提出的親和力表示對網絡進行訓練。在包括TotalText和CTW-1500數據集在內的六個基準測試上的廣泛實驗表明,我們的字符級文本檢測的性能明顯優於最先進的檢測器。這些數據集在自然圖像中包含高度彎曲的文本。結果表明,本文提出的方法在檢測任意方向、彎曲或變形文本等複雜場景文本圖像時具有很高的靈活性。

1 Introduction

Character Region Awareness for Text Detection

Abstract

近年來出現了基於神經網絡的場景文本檢測方法,並取得了良好的效果。以前使用剛性詞級邊界框訓練的方法在以任意形狀表示文本區域方面表現出侷限性。本文提出了一種新的場景文本檢測方法,通過挖掘每個字符和字符之間的親和度來有效地檢測文本區域。爲了克服單個字符級標註的不足,我們提出的框架既利用了給定的合成圖像的字符級標註,也利用了通過學習的臨時模型獲取的真實圖像的估計的字符級地面事實。爲了估計角色之間的親和度,用新提出的親和力表示對網絡進行訓練。在包括TotalText和CTW-1500數據集在內的六個基準測試上的廣泛實驗表明,我們的字符級文本檢測的性能明顯優於最先進的檢測器。這些數據集在自然圖像中包含高度彎曲的文本。結果表明,本文提出的方法在檢測任意方向、彎曲或變形文本等複雜場景文本圖像時具有很高的靈活性。

1 Introduction

在這裏插入圖片描述
場景文本檢測因其在即時翻譯、圖像檢索、場景解析、地理定位、盲目導航等方面的衆多應用而受到計算機視覺領域的廣泛關注。近年來,基於深度學習的場景文本檢測器表現出良好的性能[8,40,21,4,11,10,12,13,17,24,25,32,26]。這些方法主要訓練它們的網絡來定位詞級邊界框。但是,它們在困難的情況下可能會受到影響,例如彎曲、變形或極長的文本,這些文本很難用單個邊界框檢測到。或者,字符級感知在以自下而上的方式鏈接連續字符來處理具有挑戰性的文本時具有許多優勢。不幸的是,大多數現有的文本數據集都沒有提供字符級註釋,並且獲取字符級基本事實所需的工作過於昂貴。

在本文中,我們提出了一種新的文本檢測器,它定位單個字符區域,並將檢測到的字符鏈接到一個文本實例。我們的框架,稱爲字符區域感知F或文本檢測工藝,是用卷積神經網絡設計的,產生字符區域得分和親和度得分。區域分數用於定位圖像中的單個字符,親和度分數用於將每個字符分組爲單個實例。爲了彌補字符級標註的不足,我們提出了一種弱監督學習框架,用於估計現有真實單詞級數據集中的字符級基本真理。

圖1是CRAFT在各種形狀的文本上的結果的可視化。 通過利用字符級區域意識,可以輕鬆呈現各種形狀的文本。 我們在ICDAR數據集上演示了廣泛的實驗[15、14、28],以驗證我們的方法,實驗表明,該方法優於最新的文本檢測器。 此外,在MSRA-TD500,CTW-1500和TotalText數據集上進行的實驗[36、38、3]顯示了該方法在複雜情況下(例如長,彎曲和/或任意形狀的文本)的高度靈活性。

2 Related Work

在深度學習出現之前,場景文本檢測的主要趨勢是自下而上,其中大多數使用手工特徵-例如MSER[27]或SWT[5]-作爲基本組件。最近,通過採用流行的對象檢測/分割方法,如SSD[20]、較快的R-CNN[30]和FCN[23],已經提出了基於深度學習的文本檢測器。

基於迴歸的文本檢測器 從流行的對象檢測器改編而來的使用盒迴歸的各種文本檢測器已經被提出。與一般的對象不同,文本通常呈現爲具有各種縱橫比的不規則形狀。爲了處理這個問題,TextBoxs[18]修改了卷積內核和錨定框,以有效地捕獲各種文本形狀。DMPNet[22]試圖通過合併四邊形滑動窗口來進一步減少這個問題。最近,人們提出了旋轉敏感迴歸檢測器(RSDD)[19],它通過主動旋轉卷積濾波器來充分利用旋轉不變的特性。但是,在使用此方法時,捕獲野外存在的所有可能的形狀存在結構限制。

基於分割的文本檢測器 另一種常見的方法是基於處理分割的工作,其目的是在像素級尋找文本區域。這些通過估計單詞邊界區域來檢測文本的方法,如多尺度FCN[7]、整體預測[37]和PixelLink[4],也是以分割爲基礎提出的。SSTD[8]試圖從迴歸和分割方法中獲益,使用注意機制通過減少特徵級別上的背景干擾來增強文本相關區域。最近,TextSnake[24]被提出通過結合幾何屬性預測文本區域和中心線來檢測文本實例。

端到端文本檢測器 端到端方法同時訓練檢測和識別模塊,以便通過利用識別結果來提高檢測精度。Fots[21]和EAA[10]串聯了流行的檢測和識別方法,並以端到端的方式訓練它們。MASK TextSpotter[25]利用他們的統一模型將識別任務視爲語義分割問題。顯然,使用識別模塊進行訓練有助於文本檢測器對類似文本的背景雜波具有更強的魯棒性。
在這裏插入圖片描述
大多數方法以詞爲單位來檢測文本,但是定義用於檢測的詞的範圍並不容易,因爲詞可以通過各種標準來分隔,例如含義、空格或顏色。另外,分詞的邊界不能嚴格定義,因此分詞本身沒有明確的語義。單詞註釋中的這種歧義沖淡了迴歸和分割方法的基本事實的含義。

字符級文本檢測器 Zhang等人。[39]提出了一種使用MSER[27]提取的候選文本塊的字符級檢測器。它使用MSER來識別單個字符的事實限制了其在某些情況下的檢測魯棒性,例如低對比度、曲率和光線反射的場景。姚等人。[37]使用字符的預測映射以及需要字符級註釋的文本單詞區域和鏈接方向的映射。與顯式字符級預測不同,Seglink[32]搜索文本網格(部分文本段),並將這些段與附加鏈接預測相關聯。儘管Mask TextSpotter[25]預測了字符級概率圖,但它用於文本識別,而不是識別單個字符。

這項工作的靈感來自WordSup[12]的想法,該想法使用弱監督框架來訓練字符級檢測器。然而,Wordsup的一個缺點是,角色表示是在矩形錨點中形成的,這使得它容易受到攝像機視角變化引起的角色透視變形的影響。此外,它還受主幹結構的性能限制(即使用SSD,並受錨盒的數量及其大小的限制)。
在這裏插入圖片描述

3 Methodology

我們的主要目標是在自然圖像中精確定位每個人物。爲此,我們訓練了一個深度神經網絡來預測字符區域和字符之間的親和度。由於沒有可用的公共特徵級別數據集,因此模型以弱監督的方式進行訓練。

3.1. Architecture

採用基於VGG-16[34]的批量歸一化全卷積網絡結構作爲主幹。我們的模型在解碼部分有跳過連接,這與U-Net[31]的相似之處在於它聚合了低級特徵。最終輸出有兩個通道作爲分數映射:區域分數和親和度分數。圖2示意性地說明了網絡體系結構。

3.2. Training

3.2.1 Ground Truth Label Generation

對於每個訓練圖像,我們生成區域分數和帶有特徵級邊界框的親和度分數的地面真值標籤。區域分數表示給定像素是字符中心的概率,親和度分數表示相鄰字符之間的空格的中心概率。

與離散標記每個像素的二進制分割圖不同,我們使用高斯熱圖對字符中心的概率進行編碼。這種熱圖表示已經在其他應用中使用,例如在姿勢估計工作[1,29]中,因爲它在處理非嚴格邊界的地面真實區域時具有很高的靈活性。我們使用熱圖表示來學習區域得分和親和度得分。

圖3總結了合成圖像的標籤生成管道。直接爲邊界框內的每個像素計算高斯分佈值非常耗時。由於圖像上的字符邊界框通常通過透視投影而失真,因此我們使用以下步驟來近似和生成區域得分和親和度得分的地面真實:1)準備二維各向同性高斯映射;2)計算高斯映射區域與每個字符框之間的透視變換;3)將高斯映射扭曲到框區域。

對於親和度得分的基本事實,使用相鄰的字符框定義親和度框,如圖3所示。通過繪製對角線連接每個字符框的對角,我們可以生成兩個三角形-我們將其稱爲上下字符三角形。然後,對於每個相鄰的字符框對,通過將上三角形和下三角形的中心設置爲框的角來生成親和框。

所提出的基本事實定義使模型能夠充分檢測大型或長篇文本實例,儘管使用了較小的接受域。另一方面,以前的方法,如盒迴歸,在這種情況下需要很大的接受域。我們的字符級檢測使得卷積過濾器可以只關注字符內和字符間,而不是整個文本實例。

3.2.2 Weakly-Supervised Learning

在這裏插入圖片描述
在這裏插入圖片描述
與合成數據集不同,數據集中的真實圖像通常具有單詞級註釋。 在這裏,我們以弱監督的方式從每個單詞級註釋生成字符框,如圖4所示。當提供帶有單詞級註釋的真實圖像時,學習的過渡模型將預測裁剪後的字符區域得分 單詞圖像以生成字符級邊界框。 爲了反映臨時模型預測的可靠性,每個單詞框上的置信度圖的值與檢測到的字符數除以地面真實字符數成正比,用於在學習期間權重 訓練。

圖6顯示了拆分字符的整個過程。首先,從原始圖像中裁剪詞級圖像。其次,最新訓練的模型預測區域得分。第三,使用分水嶺算法[35]分割字符區域,使字符邊界框覆蓋區域。最後,使用來自裁剪步驟的逆變換將字符框的座標轉換回原始圖像座標。可以使用所獲得的四邊形字符級邊界框通過圖3中描述的步驟來生成區域分數和親和度分數的僞地面真值(僞GT)。

當使用弱監督訓練模型時,我們被迫使用不完全僞GT進行訓練。如果用不準確的區域分數訓練模型,則輸出可能會在字符區域內變得模糊。爲了防止這種情況,我們測量了模型生成的每個僞GT的質量。幸運的是,在文本註釋中有一個非常強的提示,那就是單詞長度。在大多數數據集中,提供了單詞的轉錄,並且可以使用單詞的長度來評估僞GT的置信度。

對於訓練數據的詞級註釋樣本w,設R(W)和l(W)分別是樣本w的邊界框區域和詞長。通過字符拆分過程,我們可以獲得估計的字符邊界框及其相應的字符長度Lc(W)。則樣本w的置信度分數sconf(W)被計算爲,
sconf(w)=l(w)min(l(w),l(w)lc(w))l(w)(1) s_{c o n f}(w)=\frac{l(w)-\min \left(l(w),\left|l(w)-l^{c}(w)\right|\right)}{l(w)}(1)
並且圖像的像素方向置信度圖Sc被計算爲,
Sc(p)={sconf(w)pR(w)1 otherwise (2) S_{c}(p)=\left\{\begin{array}{ll} {s_{\operatorname{con} f}(w)} & {p \in R(w)} \\ {1} & {\text { otherwise }} \end{array}\right.(2)
其中p表示區域R(W)中的像素。目標L被定義爲,
L=pSc(p)(Sr(p)Sr(p)22+Sa(p)Sa(p)22)(3) L=\sum_{p} S_{c}(p) \cdot\left(\left\|S_{r}(p)-S_{r}^{*}(p)\right\|_{2}^{2}+\left\|S_{a}(p)-S_{a}^{*}(p)\right\|_{2}^{2}\right)(3)
其中,S∗r§和S∗a§分別表示僞地真值區域得分和親和度圖,Sr§和Sa§分別表示預測區域得分和親和度得分。當使用合成數據進行訓練時,我們可以獲得真實的地面真實情況,因此將Sc§設爲1。

隨着訓練的進行,CRAFT模型可以更準確地預測角色,並且置信度得分sconf(w)也逐漸增加。 圖5示出了訓練期間的人物區域得分圖。 在訓練的早期階段,自然圖像中不熟悉的文本的區域分數相對較低。 該模型學習新文本的外觀,例如不規則字體和合成文本,這些文本的數據分佈與SynthText數據集的數據分佈不同。

如果置信度分數sconf(W)小於0.5,則應該忽略估計的字符邊界框,因爲它們在訓練模型時會產生不利影響。在這種情況下,我們假設單個字符的寬度是恆定的,並通過簡單地將單詞區域R(W)除以字符數l(W)來計算字符級預測。然後,將sconf(W)設置爲0.5以瞭解文本的不可見外觀。
在這裏插入圖片描述

3.3. Inference

在推斷階段,最終輸出可以各種形狀傳遞,例如單詞框或字符框,以及其他多邊形。 對於ICDAR之類的數據集,評估協議是單詞級聯合(IoU),因此,我們在此介紹如何通過簡單但有效的後處理步驟,從預測的Srand Sas中創建單詞級邊界框QuadBox。

查找邊界框的後處理總結如下。首先,將覆蓋圖像的二值圖M初始化爲0。如果Sr§>τr或Sa§>τa,則M§被設置爲1,其中τ是區域閾值,τa是親和力閾值。其次,對M進行連通分支標記(CCL)。最後,通過尋找一個旋轉矩形來獲得QuadBox,該矩形包含與每個標籤對應的連通組件的最小面積。OpenCV提供的connectedComponents和minAreaRect等函數可以用於此目的。
在這裏插入圖片描述
請注意,CREATE的一個優點是它不需要任何進一步的後處理方法,如非最大抑制(NMS)。因爲我們有由CCL分隔的單詞區域的圖像斑點,所以單詞的邊界框簡單地由單個封閉矩形來定義。另一方面,我們的字符鏈接過程是在像素級進行的,這與其他基於鏈接的方法[32,12]不同,它顯式地依賴於搜索文本組件之間的關係。

此外,我們可以在整個字符區域周圍生成一個多邊形以有效處理彎曲的文本。多邊形生成的過程如圖7所示。第一步是沿掃描方向找到字符區域的局部最大值線,如下所示: 在圖中以藍色箭頭顯示。 將局部最大值線的長度均等地設置爲其中的最大長度,以防止最終的多邊形結果變得不均勻。 連接局部最大值的所有中心點的線稱爲中心線,以黃色顯示。 然後,旋轉局部最大值線以使其垂直於中心線,以反映字符的傾斜角,如紅色箭頭所示。 局部最大值線的端點是文本多邊形控制點的候選項。 爲了完全覆蓋文本區域,我們將兩條最外側傾斜的局部最大值線沿局部最大值中心線向外移動,從而形成最終控制點(綠色點)。
在這裏插入圖片描述

4 Experiment

4.1. Datasets

ICDAR2013(IC13)是在ICDAR 2013年度聚焦場景文本檢測穩健閱讀比賽期間發佈的,由高分辨率圖像組成,其中229張用於訓練,233張用於測試,其中包含英文文本。註釋使用矩形框進行單詞級別的註釋。

ICDAR2015(IC15)是在ICDAR 2015年用於附帶場景文本檢測的穩健閱讀比賽中引入的,包括1000個訓練圖像和500個測試圖像,兩個圖像都有英文文本。註釋位於單詞級別,使用四邊形方框。

ICDAR2017(IC17)包含7200張訓練圖像,1800張驗證圖像和9000張測試圖像,其中包含9種語言的文本,用於多語言場景文本檢測。 與IC15相似,IC17中的文本區域也由四邊形的四個頂點註釋。
在這裏插入圖片描述
MSRA-TD500(TD500)包含500個自然圖像,分爲300個訓練圖像和200個測試圖像,使用袖珍相機在室內和室外採集。這些圖像包含英文和中文文字。文本區域由旋轉的矩形進行註釋。最近在ICDAR 2017上展示的

TotalText(TotalText)包含1255個訓練圖像和300個測試圖像。它特別提供彎曲的文本,這些文本由多邊形和詞級轉錄進行註釋。

CTW-1500(CTW)由1000個訓練圖像和500個測試圖像組成。每幅圖像都有彎曲的文本實例,這些實例由具有14個頂點的多邊形進行註釋。

4.2. Training strategy

訓練過程包括兩個步驟:首先使用SynthText數據集[6]訓練網絡50k次迭代,然後採用每個基準數據集對模型進行微調。通過將sconf(W)設置爲0,在訓練中忽略了ICDAR 2015和ICDAR 2017數據集中的一些“無關”文本區域。我們在所有培訓過程中都使用ADAM[16]優化器。對於多GPU訓練,將訓練GPU和監督GPU分開,並將監督GPU生成的僞GT存儲在存儲器中。在微調期間,SynthText數據集也以1:5的比率使用,以確保字符區域確實被分隔。爲了過濾掉自然場景中類似紋理的文本,以1:3的比例應用了在線硬否定挖掘[33]。此外,還應用了基本的數據增強技術,如裁剪、旋轉和/或顏色變化。

弱監督訓練需要兩種類型的數據:用於裁剪單詞圖像的四邊形註釋和用於計算詞長的轉錄。滿足這些條件的數據集是IC13、IC15和IC17。其他數據集,如MSRA-TD500、TotalText和CTW-1500不符合要求。MSRA-TD500不提供轉錄,而TotalText和CTW-1500僅提供多邊形註釋。因此,我們只在ICDAR數據集上訓練了CREATE,並在其他數據集上進行了測試,沒有進行微調。用ICDAR數據集訓練了兩個不同的模型。第一個模型在IC15上進行訓練,僅評估IC15。第二個模型同時在IC13和IC17上訓練,用於評估其他五個數據集。沒有額外的圖像用於訓練。微調的迭代次數設置爲25k。

4.3. Experimental Results

四邊形類型的數據集(ICDAR和MSRATD500)所有實驗都使用單一圖像分辨率執行。IC13、IC15、IC17和MSRA-TD500中圖像的較長一側分別調整爲960、2240、2560和1600。表1列出了各種方法在ICDAR和MSRA-TD500數據集上的h-平均分。爲了與端到端方法進行公平的比較,我們通過參考原始論文來包含它們僅檢測的結果。我們在所有數據集上實現了最先進的性能。此外,由於簡單而有效的後處理,CREATE在IC13數據集上的運行速度爲8.6FPS,這是相對較快的。

對於MSRA-TD500,在行級別提供註釋,包括框中單詞之間的空格。因此,應用用於組合詞框的後處理步驟。如果一個長方體的右側和另一個長方體的左側足夠近,則這兩個長方體合併在一起。即使沒有在TD500訓練集上執行微調,CREATE的性能也優於所有其他方法,如表1所示。
在這裏插入圖片描述
多邊形類型的數據集(TotalText,CTW-1500)直接在TotalText和CTW-1500上訓練模型具有挑戰性,因爲它們的註釋呈多邊形形狀,這使在弱監督訓練中分割文本框的文本區域裁剪變得複雜。 因此,我們僅使用了來自IC13和IC17的訓練圖像,而沒有進行微調來學習這些數據集提供的訓練圖像。 在推理步驟中,我們使用了從區域得分開始的多邊形生成後處理,以應對提供的多邊形類型註釋。

針對這些數據集的實驗也是在單一圖像分辨率下進行的。TotalText和CTW-1500中圖像的較長邊分別調整爲1280和1024。在多角型數據集上的實驗結果如表2所示。與其他方法相比,CREATE的單個字符定位能力使我們在檢測任意形狀的文本時獲得了更好的魯棒性和更好的性能。具體地說,TotalText數據集具有各種變形,包括如圖8所示的彎曲文本,對於這些變形,基於四邊形的文本檢測器的充分推斷是不可行的。因此,可以在這些數據集上評估的方法數量非常有限。

在CTW-1500數據集的情況下,兩個困難的特徵共存,即在行級提供的註釋和任意多邊形的註釋。爲了在這種情況下幫助工藝,一個小的鏈接細化網絡,我們稱之爲LinkRefiner,與工藝結合使用。LinkRefiner的輸入是工藝的區域得分、親和度得分和中間特徵圖的拼接,輸出是針對長文本調整的精細化親和度得分。爲了組合字符,使用精化的親和度分數而不是原始的親和度分數,然後以與對TotalText執行多邊形生成相同的方式執行多邊形生成。凍結工藝時,只有LinkRefiner在CTW-1500數據集上接受培訓。補充資料中介紹了LinkRefiner的詳細實現。如表2所示,建議的方法實現了最先進的性能。

4.4. Discussions

規模差異的穩健性即使文本大小差異很大,我們也只對所有數據集進行了單規模實驗。 這不同於大多數其他方法,後者依靠多尺度測試來處理尺度方差問題。 此優勢來自於我們對單個字符而不是整個文本進行本地化的方法的屬性。 相對較小的接收場足以覆蓋大圖像中的單個字符,這使CRAFT在檢測比例尺變體文本方面具有魯棒性。
在這裏插入圖片描述
多語言問題 IC17數據集包含孟加拉和阿拉伯字符,這些字符不包括在合成文本數據集中。此外,這兩種語言都很難單獨分割成字符,因爲每個字符都是草寫的。因此,我們的模型不能像區分拉丁文、韓文、中文和日文那樣區分孟加拉和阿拉伯字符。在東亞字符的情況下,它們可以很容易地以恆定的寬度分開,這有助於通過弱監督將模型訓練到高性能。

與端到端方法相比,我們的方法只使用地面真值框進行檢測訓練,但它與其他端到端方法是可比較的,如表中所示。3.通過對失敗案例的分析,我們希望我們的模型能從識別結果中獲益,特別是當基本真實詞是通過語義而不是視覺線索來分隔的時候。

泛化能力我們的方法在3個不同的數據集上獲得了最先進的性能,而不需要額外的微調。這表明我們的模型能夠捕獲文本的一般特徵,而不是過度適合特定的數據集。

5 Conclusion

我們提出了一種新的文本檢測器,稱爲CREATE,它可以在沒有給出字符級註釋的情況下檢測單個字符。所提出的方法提供了字符區域得分和字符親和度得分,它們一起以自下而上的方式完全覆蓋各種文本形狀。由於提供字符級註釋的真實數據集很少,我們提出了一種從中間模型生成僞地面真實的弱監督學習方法。Craft在大多數公共數據集上顯示了最先進的性能,並通過顯示這些性能而不進行微調來展示泛化能力。作爲我們未來的工作,我們希望以端到端的方式使用識別模型來訓練我們的模型,以查看工藝的性能、健壯性和通用性是否轉化爲可以在更一般的設置中應用的更好的場景文本檢測系統。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章