文章目錄

ABCNet 導讀：使用自適應貝塞爾曲線網絡進行進行實時場景文本定位

ABCNet：Real-time Scene Text Spotting with Adaptive Bezier-Curve Network

ABCNet，點我下載
CVPR2020收錄，在場景文本定位達到最優先進性。

Abstract 摘要

場景文字檢測和識別越來越受到研究重視。現行的方法被別粗略的劃分成兩個類別：基於字符的和基於分割的。這些方法對於字符註釋來說是耗費巨大，還得維護一個複雜的過程，對實時應用非常不適合。所以我們提出自適應貝塞爾曲線網絡(ABCNet)來解決這個問題。我們的貢獻有三個：首次採用參數化的貝塞爾曲線自適應擬合任意形狀的文本；我們設計了一種新貝塞爾對齊層，用於提取具有任意形狀的文本實例的精確卷積特徵，與以前的方法相比，大大提高了精度。與標準的邊界盒檢測相比，我們的貝塞爾曲線檢測引入了微不足道的計算開銷，這使得我們的方法在效率和準確性上都具有優勢。

在任意形狀的基準數據集(Total-Text和CTW1500)上進行的實驗表明，ABCNet實現了最新進的精度，同時顯著提高了速度。
代碼可以在軟件包AdelaiDet中找到

介紹

場景文本檢測與識別由於在計算機視覺中的廣泛應用而受到越來越多的關注。儘管最近取得了巨大的進展[10、41、27、35、26、42]，但由於其在大小、長寬比、字體樣式、透視失真和形狀等方面的多樣性，檢測和識別野生文本在很大程度上仍未解決。雖然深度學習的出現極大地提高了場景文本定位任務的性能，但是目前的方法離實際應用中仍然存在相當大的差距，特別是在效率方面。

近年來，許多端到端方法[30,36,33,23,43,20]顯著提高了任意形狀場景文本定位的性能。然而，這些方法要麼使用基於分段的方法來維護複雜的管道，要麼需要大量昂貴的字符級標註。此外，幾乎所有這些方法推理速度都很慢，妨礙了實時應用程序的部署。因此，我們的動機是設計一個簡單而有效的端到端框架，用於在圖像中定向或彎曲的場景文本定位[5,26]，它確保了快速的推斷時間，同時達到了與最先進方法相媲美甚至更好的性能。

爲了實現這一目標，我們提出了自適應貝塞爾曲線網絡(ABCNet)，一種端到端的可訓練框架，用於任意形狀的場景文本識別。ABCNet通過簡單而有效的自適應Bezier曲線實現了任意形狀的場景文本檢測，與標準的矩形邊框檢測相比，它帶來的計算開銷可以忽略不計。此外，我們設計了一種新穎的特徵對齊層—BezierAlign—來精確計算彎曲形狀文本實例的卷積特徵，從而在幾乎可以忽略計算開銷的情況下實現較高的識別精度。我們首次用參數化的貝塞爾曲線表示有向文本或彎曲文本，結果表明了該方法的有效性。我們的定位結果示例如圖1所示。

基於分段的結果很容易受到附近文本的影響。非參數非結構化分割結果使得後續識別分支的特徵很難對齊。基於分段的結果通常需要複雜的後處理，影響效率。得益於參數化的Bezier曲線表示，我們的ABCNet可以產生結構化的檢測區域，因此BezierAlign採樣過程可以用來自然地連接識別分支。

請注意以前的方法，如TextAlign[11]和FOTS[24]可以看作是ABCNet的一個特例，因爲一個四邊形的邊界框可以看作是最簡單的具有4條直線邊界的任意形狀的邊界框。此外，ABCNet可以避免複雜的轉換，如2D注意[19]，使得識別分支的設計更加簡單。

我們總結了我們的主要貢獻如下：

爲了在圖像中準確定位有向和彎曲的場景文本，我們首次引入了一種新的簡潔的貝塞爾曲線參數表示方法。與標準的邊界框表示相比，它引入了微不足道的計算開銷。
我們提出了一種採樣方法，即BezierAlign，用於精確的特徵對齊，因此識別分支可以自然地連接到整個結構。通過共享主幹特徵，識別分支可以設計成輕量級結構。
我們方法的簡單性允許它實時執行推理。ABCNet在Total-Text和CTW1500這兩個具有挑戰性的數據集上實現了最先進的性能，同時展示了有效性和效率方面的優勢。

1.1 相關工作

場景文本定位需要同時關注檢測和識別文本，而不只是一個任務。近年來，基於深度學習的方法的出現極大地提高了文本定位的性能。檢測和識別的性能都得到了極大的提高。我們將幾種具有代表性的基於深度學習的場景文本定位方法歸納爲以下兩類。圖2顯示了典型作品的概述。

圖2。一些和我們最相關端到端場景文本定位方法概覽。在GT(真實)邊框裏，“W”“R”和“C”分別表示字詞級註釋、文本內容和字符級註釋。“H”、“Q”和“P”表示該方法能夠分別檢測水平、四邊形和任意形狀的文本。“RP”表示該方法可以識別四邊形框內的彎曲文本。“R”:識別;“BBox”:邊界框。虛線框表示該方法無法檢測到的文本形狀

常規的端到端場景文本定位Li等人提出了第一個基於深度學習的端到端可訓練的場景文本定位方法。該方法成功地使用了一個RoI Pooling將檢測和識別兩階段框架[34]匯聚到一起，但它只能識別水平和聚焦的文本。它的改進版本[19]顯著地改進了性能，但是速度有限。He等人的[11]和Liu等人的[24]採用無錨機制來提高訓練和推理速度。他們使用類似的抽樣策略，即Text-Align-Sampling和RoI-Rotate分開用於從四邊形檢測結果中提取特徵。注意到這兩種方法都不兼容定位任意形狀的場景文本。

任意形狀的端到端場景文本定位爲了檢測任意形狀的場景文本，Liao等人[30]提出了一種掩碼TextSpotter，它巧妙地改進了掩碼R-CNN，並使用字符級監督來同時檢測和識別字符和實例掩碼。該方法顯著提高了任意形狀場景文本的識別性能。然而，字符級的基本真值是昂貴的，使用免費合成數據很難爲真實數據生成字符級的真值。它的改進版本[20]顯著地減輕了對字符級ground truth的依賴。該方法依賴於區域建議網絡，在一定程度上限制了速度。Sun等人提出了TextNet預先生成四邊形檢測邊界框，然後利用區域建議網絡來填充檢測特徵進行識別。雖然該方法可以直接從四邊形檢測中識別任意形狀的文本，但其性能仍然有限。

最近，Qin等人提出使用RoI掩蔽來聚焦任意形狀的文本區域。然而，結果可能很容易受到離羣點的影響。此外，分割分支增加了計算負擔；擬合多邊形過程也引入了額外的時間消耗；分組結果通常是鋸齒狀的，不平滑的。：[23]的工作是第一個單階段任意形狀的場景文本定位方法，需要字符級真實數據進行訓練。[43]的作者提出了一種新的採樣方法，RoISlide，它使用來自文本實例的預測片段的融合特徵，因此它對長任意形狀的文本具有很強的魯棒性。

2.自適應貝塞爾曲線網絡(ABCNet)

ABCNet是一個端到端可訓練的場景文本定位框架。在圖3中可以看到一個直觀的流程。受到[47,37,12]的啓發，我們採用了一個單次、無錨定的卷積神經網絡作爲檢測框架。刪除錨盒大大簡化了我們任務的檢測。這裏的檢測是在輸出特徵圖上進行密集預測，檢測由4個疊加的卷積層構成，其中stride爲1,padding爲1,kernel爲3×3。接下來，我們將提出的ABCNet的關鍵組件的兩個部分:1)貝塞爾曲線檢測;2) BezierAlign和識別分支。

圖3。本文提出的ABCNet框架。利用貝塞爾曲線檢測結果，利用三次貝塞爾曲線和貝塞爾對齊提取曲線序列特徵。整體框架具有端到端可訓練性，效率高。紫色的點表示三次貝塞爾曲線的控制點。

2.1貝塞爾曲線檢測

與基於分段的方法相比[40,44,1,38,45, 28]，基於迴歸的方法是對任意形狀文本檢測更直接的解決方案，如[26,42]。然而，以往基於迴歸的方法需要複雜的參數化預測來擬合文本邊界，在實際中對各種文本形狀的擬合效率和魯棒性都不高。

爲了簡化任意形狀的場景文本檢測，我們採用迴歸方法，認爲貝塞爾曲線是曲線文本參數化的理想概念。Bezier曲線是以Bernstein多項式[29]爲基的參數曲線c(t)。定義如式(1)所示。

$c(t) = \displaystyle\sum_{i=0}^nb\scriptscriptstyle i \displaystyle B\scriptscriptstyle i \displaystyle(t),0 \le t \le1, \tag{1}$
式中，n爲次數， $b\scriptscriptstyle i$ 爲第 $i$ 個控制點， $B\scriptscriptstyle i,n \displaystyle (t)$ 爲Bernstein基多項式，如式(2)所示:
$B\scriptscriptstyle i,n \displaystyle (t)=\dbinom{n}{i} t^i(1-t)^{n-i},i = 0,...,n, \tag{2}$
式中， $\binom{n}{i}$ 是二項式係數,爲了擬合任意形狀的文本與貝塞爾曲線，我們全面觀察任意形狀的場景文本從現有的數據集，在現實世界中，我們經驗地證明了一個三次貝塞爾曲線(即 $n$ 爲3)，在實際中足以擬合不同種類的任意形狀的場景文本。三次貝塞爾曲線的圖解如圖4所示。

圖4.三次貝塞爾曲線。 $b_i$ 表示控制點。綠色的線形成一個控制多邊形，黑色的曲線是三次貝塞爾曲線。注意，只有兩個端點 $b_1$ 和 $b_4$ 時，Bezier曲線退化爲一條直線。

基於三次貝塞爾曲線，我們可以將任意形狀的場景文本檢測簡化爲一個總共有八個控制點的邊界盒迴歸。請注意，具有四個控制點(四個頂點)的純文本是任意形狀的場景文本的典型案例。爲了保持一致性，我們在每條長邊的三個點上插入額外的兩個控制點。

爲了學習控制點的座標，我們首先生成了2.1.1中描述的Bezier曲線真實標籤，然後使用類似於[25]中的迴歸方法對目標進行迴歸。對於每個文本實例，我們使用
$\Delta_x = b_{ix} - x_{min},\Delta_y = b_{iy} - y_{min}, (3)$
式中 $x_{min}$ 和 $y_{min}$ 分別爲四個頂點中 $x$ 和 $y$ 的最小值。預測相對距離的優點是與貝塞爾曲線控制點是否超出圖像邊界無關。在檢測頭內部，我們只需要一個16個輸出通道的卷積層來學習∆x和
∆y，這幾乎是無消耗的，但結果仍然可以是準確的，這將在第3節中討論。

2.2.1 貝塞爾真值生成

在本節中，我們將簡要介紹如何在原始註釋真值基礎上生成貝塞爾曲線。任意形狀的數據集，例如Total-text[5]和CTW1500[26]，使用多邊形對文本區域註釋。給定曲線邊界上的標註點 $\{p_i\}_{i=1}^n$ ，其中 $p_i$ 爲第 $i$ 個標註點，爲了達到得到式(1)中三次貝塞爾曲線 $c(t)$ 的最優參數的目標，只需應用標準最小二乘法即可，如式(4)所示：
$\left[ \begin{matrix} B_{0,3}(t_0) & \cdots & B_{3,3}(t_0) \\ B_{0,3}(t_1) & \cdots & B_{3,3}(t_1) \\ \vdots & \ddots & \vdots \\ B_{0,3}(t_m) & \cdots & B_{3,3}(t_m) \end{matrix} \right] \left[ \begin{matrix} b_{x0} & b_{y0} \\ b_{x1} & b_{y1} \\ b_{x2} & b_{y2} \\ b_{x3} & b_{y3} \end{matrix} \right] = \left[ \begin{matrix} p_{x0} & p_{y0} \\ p_{x1} & p_{y1} \\ \vdots & \vdots \\ p_{xm} & p_{ym} \end{matrix} \right] \tag{4}$
這裏 $m$ 表示曲線邊界的標註點的數量。對於Total-Text和CTW1500, $m$ 分別是5和
7。 $t$ 是用累計長度與折線周長之比來計算的。根據式(1)和式(4)，我們將原始的折線標註轉換爲參數化的Bezier曲線。注意，我們直接分別使用第一個和最後一個註釋點作爲第一個控制點( $b_0$ )和最後一個控制點( $b_4$ )。可視化對比如圖5所示，結果表明，生成的結果在視覺上甚至比原來的ground truth更好。此外，基於結構化的Bezier曲線包圍框，我們可以很容易地使用第2.2節中描述的BezierAlign將彎曲的文本變換成水平格式，而不會產生劇烈的變形。圖6顯示了生成Bezier曲線結果的更多示例。我們的樸素的方法，在實際中可以推廣到不同類型的文本。

圖5.生成貝塞爾曲線比較。在圖(b)中對於每個曲線邊，紅色虛線形成一個控制多邊形，紅點代表控制點。變換結果如下圖所示。在圖(a)中，我們利用TPS[2]和STN[14]將原始的ground truth變換成矩形。在圖(b)中，是使用生成的Bezier曲線和我們的BezierAlign變換的結果。

圖6.貝塞爾曲線生成的實例結果。綠線是最後的貝塞爾曲線結果。紅色虛線表示控制多邊形，4個紅色端點表示控制點。放大可以獲得更好的可視化效果。

圖7.以前的採樣方法和BezierAlign對比。該方法能夠準確地提取文本區域的特徵，對識別訓練至關重要。請注意，align過程是在中間的卷積特徵中處理的。

圖8.人工合成三次貝塞爾曲線標註數據的實例

2.1.2 貝塞爾曲線人工合成數據集

對於端到端場景文本定位方法，總是需要大量的自由人工合成數據，如表2所示。然而，現有的800k SynText數據集[7]僅爲大多數純文本提供了四邊形邊界框。爲了豐富任意形狀的場景文本，我們嘗試使用VGG人工合成方法[7]生成150k合成數據集(94,723張圖像包含了大部分的直文本，54,327張圖像包含了大部分的彎文本)。特別地，我們從COCOText[39]中過濾出40k個無文本的背景圖像，然後用[32]和[17]準備好每個背景圖像的分割掩模和場景深度，用於接下來的文本渲染。爲了增加合成文本的形狀多樣性，我們對VGG合成方法進行了修改，使用各種藝術字體和語料庫合成場景文本，並對所有文本實例生成多邊形標註。然後，這些標註數據將被2.1.1節說描述的方法生成貝塞爾曲線GT。我們的合成數據示例如圖8所示。

2.2 BezierAlign

爲了支持端到端訓練，以前的方法大多采用各種採樣(特徵對齊)方法來連接識別分支。通常，抽樣方法表示網絡內區域裁剪過程。換句話說，給定一個特徵圖和感興趣區域(RoI)，利用抽樣方法選擇RoI的特徵，有效地輸出一個固定大小的特徵圖。但是，以前的非分割方法的採樣方法，如RoI Pooling [18]， RoIRotate [24]， Text-Align-Sampling[11]，或RoI Transform
[36]不能正確對齊任意形狀的文本的特性
(RoISlide[43]衆多預測片段)。利用緊湊貝塞爾曲線邊界盒的參數化特性，提出了特徵採樣的貝齊爾對齊方法。BezierAlign是從RoIAlign[8]擴展而來的。不像RoIAlign, BezierAlign的採樣網格的形狀不是矩形的。相反，任意形狀網格的每一列都與文本的Bezier曲線邊界正交。採樣點分別在寬度和高度上的間距相等，是根據座標雙線性插值的。
在給定輸入特徵圖和貝塞爾曲線控制點的情況下，我們同時處理輸出像素大小爲 $h_{out}×w_{out}$ 的矩形特徵圖。以特徵輸出圖中位置在 $(g_{iw},g_{ih})$ 的像素 $g_i$ 爲例，由式(5)計算 $t$ :
$t=\dfrac {g_{iw}} {w_{out}} \tag{5}$
然後利用 $t$ 和式(1)計算上貝塞爾曲線邊界 $tp$ 和下貝塞爾曲線邊界 $bp$ 的點。利用 $tp$ 和 $bp$ ，我們可以用式(6)將採樣點 $op$ 線性索引化：
$op = bp \cdot \dfrac {g_{iw}} {h_{out}}+tp \cdot (1-\dfrac {g_{ih}}{h_{out}})$
利用 $op$ 的位置，我們可以很容易地應用雙線性插值來計算出結果。之前的抽樣方法與BezierAlign的比較如圖7所示。
識別分支 得益於共享骨幹功能和BezierAlign，我們設計了一個輕量級的識別分支如表1所示，用於更快的執行。它包括6個卷積層，1個雙向層LSTM[13]層，1個全連接層。基於輸出類別分數，我們使用一個經典的CTCLoss評價文本字符串(GT)對齊[6]。注意，在訓練過程中，我們直接使用生成的Bezier曲線GT來提取RoI特徵。因此，檢測分支不影響識別分支。在推理階段，將RoI區域替換爲2.1節所述的檢測Bezier曲線。實驗3簡化研究表明，提出的BezierAlign可以顯著提高識別性能。

3. 實驗

我們在兩個最近引入的任意形狀的場景文本基準上評估了我們的方法，即全文本[3]和CTW1500[26]，它們也包含大量的連續文本。我們還在Total-Text進行了簡化研究，以驗證我們提出的方法的有效性。

3.1 實現細節

這篇論文的主幹網絡採用了一個與之前大多數論文相同的設置，即 ResNet-50[9]和一個特徵金字塔網絡(FPN)[22]。對於檢測分支，我們利用輸入圖像的1/8、1/16、1/32、1/64和1/128分辨率的5個特徵圖上的RoIAlign，而對於識別分支，BezierAlign在三種大小分別爲1/4、1/8和1/16的feature map上執行。預訓練的數據來自於公開的基於英文單詞的數據集，包括如2.1.2節中描述的150k合成數據，從原始COCO-Text[39]和7k ICDAR- MLT數據[31]中過濾出的15k張圖像。然後，在目標數據集的訓練集上對預先訓練的模型進行finetuning。此外，我們還採用了數據增強策略，如隨機標度訓練，短標度隨機選擇560 -~800，長標度小於1333；隨機裁剪，確保裁剪尺寸大於原始尺寸的一半，並且沒有任何文本被剪切(對於一些難以滿足條件的特殊情況，我們不應用隨機裁剪)。
我們使用4臺特斯拉V100 gpu訓練我們的模型，圖像批處理大小爲32。最大迭代150K；初始化學習率爲0.01，降爲70k迭代時0.001，120K迭代時0.0001。整個培訓過程大約需要3天。

表1.識別分支的結構，這是一個簡化版本的CRNN[35]。對於所有的卷積層，填充大小限制爲1。 $n$ 表示批大小。 $c$ 表示通道大小。 $h$ 和 $w$ 代表輸出特徵圖的高度和寬度， $n_{class}$ 代表的預測類的數量，本文設置爲97，包括英文字符大小寫，數字，符號，一個代表所有其他類別符號，和最後一類EOF。

3.2 在Total-Text實驗結果

數據集。Total-Text數據集[3]是在2017年提出的最重要的任意形狀場景文本基準之一。它收集了各種場景，包括類文本複雜場景和低對比度的背景。它包含1555張圖像，其中1255張用於訓練，300張用於測試。爲了模擬真實的場景，這個數據集的大多數圖像都包含大量的常規文本，同時保證每個圖像至少有一個彎曲文本。文本實例使用多邊形進行單詞級註釋。它的擴展版本[5]改進了訓練集的註釋，按照文本識別序列爲每個文本實例添加了一個固定的10點註釋。數據集只包含英文文本。爲了評估端到端的結果，我們使用與以前相同的度量方法，即使用F-measure來測量單詞的準確性。

簡化研究:BezierAlign。爲了評估提出的組件的有效性，我們對這個數據集進行簡化研究。我們首先對採樣點的數量如何影響端到端的結果進行敏感性分析，如表4所示。從結果中可以看出，採樣點的數量對最終的性能和效率有很大的影響。我們發現(7,32)在F-measure與FPS之間達到最佳平衡，在接下來的實驗中作爲最後的設置。我們進一步評估BezierAlign，將其與圖7中所示的先前抽樣方法進行比較。表3中顯示的結果表明，BezierAlign可以顯著改善端到端結果。定性的例子如圖9所示。

圖9.四邊形抽樣方法和BezierAlign識別結果質量。左:原始圖像。右上角:採用四邊形抽樣的結果。右下角:使用BezierAlign的結果。

簡化研究:貝塞爾曲線檢測。 另一個重要的組成部分是貝塞爾曲線檢測，它可以實現任意形狀的場景文本檢測。因此，我們也進行了實驗來評估的時間消耗貝塞爾曲線檢測。表5中的結果表明與標準邊界盒檢測相比，貝塞爾曲線檢測沒有引入額外的計算。

表2.在Total-Text場景文本定位結果。這裏*表示根據原始論文或提供的代碼粗略推斷的結果。當輸入圖像的短尺寸爲600時，ABCNet-F速度更快。MS:多尺度測試。數據集:AddF2k [46];IC13 [16];IC15 [15];TT [4];MLT [31];COCO-Text [39]

先進性對比。我們進一步將我們的方法與以前的方法進行比較。從表2中可以看出，我們的單尺度結果(短標度爲800)在實現實時推理速度的同時，可以獲得具有競爭力的性能，從而可以更好地權衡速度和單詞的準確性。通過多尺度推理，ABCNet實現了最先進的性能，特別是在運行時間上顯著優於以前的所有方法。值得一提的是，相同精度下我們最快的版本比以前最好的方法[20]快11倍以上。
結果質量。ABCNet的一些結果質量如圖10所示。結果表明，該方法能準確地檢測和識別任意形狀的文本。此外，我們的方法還可以很好地處理直文本，具有近似四邊形的緊密邊界框和正確的識別結果。圖中也出現了一些錯誤，這些錯誤主要是由於錯誤地識別了其中一個字符。

圖10.在Total-text上ABCNet檢測結果質量。檢測結果以紅色邊框顯示。浮點數是預測的置信度。放大可以獲得更好的可視化效果。

表3.BezierAlign簡化研究。遵循水平採樣[18]，遵循四邊形採樣[11]。

表4.BezierAlign取樣點的數目的簡化研究。

3.3 在CTW1500實驗結果

數據集。CTW1500[26]是2017年提出的另一個重要的任意形狀場景文本基準。與Total-Text相比，該數據集包含中英文文本。此外，註釋是基於文本行級別的，它還包括一些類似文檔的文本，即，無數可以堆疊在一起的小文本。CTW1500包含1k訓練圖像，500張測試圖像。
實驗。由於該數據集中中文文本的佔用非常小，我們在訓練時直接將所有中文文本視爲“未見”類，即第96類。注意在我們的實現中最後一類，爲第97類是“EOF”。我們遵循與[43]相同的評價標準。實驗結果如表6所示，表明在端到端場景文本定位方面，ABCNet可以顯著地超越以前最先進的方法。此數據集的示例結果如圖11所示。從圖中，我們可以看到一些長文本行實例包含許多單詞，這使得完全匹配單詞準確性變得非常困難。也就是說一個字符識別錯誤將導致整個文本零分。

圖11.在CTW1500端到端定位結果質量。放大可以獲得更好的可視化效果。

表6.CTW1500上的端到端的場景文本定位結果。*表示來自[43]的結果。“None”代表無詞典。“Strong Full”表示我們使用了測試集中出現的所有單詞。

4. 結論

我們提出了ABCNet，一種基於貝塞爾曲線的任意形狀場景文本實時端到端定位方法。利用參數化的貝塞爾曲線重新構造任意形狀的場景文本，ABCNet可以用貝塞爾曲線檢測任意形狀的場景文本，與標準邊框盒檢測相比引入的計算成本可以忽略不計。使用這種規則的Bezier曲線邊框，我們可以通過一個新的BezierAlign層自然地連接一個輕量級的識別分支。

另外，通過利用我們的Bezier curve 合成數據集和公開數據集，在兩個任意形狀的場景文本基準測試集(Total-Text和CTW1500)證明了我們的ABCNet可以實現最先進的性能，同時也比以前的方法快得多。

歡迎訪問我的博客
隆力奇的博客

ABCNet 精讀：使用自適應貝塞爾曲線網絡進行進行實時場景文本定位 OCR 文本定位文本檢測 CVPR

文章目錄

ABCNet 導讀：使用自適應貝塞爾曲線網絡進行進行實時場景文本定位

ABCNet：Real-time Scene Text Spotting with Adaptive Bezier-Curve Network

Abstract 摘要