帶你瞭解彎曲文本檢測算法的兩種思路:區域重組和像素分割

摘要:文本檢測是文本讀取識別的第一步,對後續的文本識別有着重大的影響。

本文分享自華爲雲社區《技術綜述十三:彎曲文本檢測算法(一)》,作者: 我想靜靜。

背景介紹

文本檢測是文本讀取識別的第一步,對後續的文本識別有着重大的影響。一般場景下,可以通過對通用目標檢測算法進行配置修改,來實現對文本行的檢測定位。然而在彎曲文字場景,通用目標檢測算法無法實現對文字邊框的精準表述。因此,近年來很多學術論文都提出了新穎的解決場景文字檢測的算法,主要包括兩種思路:1. 基於區域重組的文本檢測;2. 基於像素分割的文本檢測。

區域重組的文本檢測算法

PixelLink

PixelLink主要是針對相鄰文本難以分離這個問題而提出的。該方法主要是預測文本/非文本區域,以及每個像素和它的上、下、左、右、左上、右上、左下、右下的像素之間的連接關係。在推理階段,被預測爲文本的像素和與該像素具有連接關係的像素被連接在一起。最後每個連接組件的最小外接矩形作爲文本邊框。

圖1. PinxelLink 算法框架

由於使用了基於連通域的方法進行文本像素匯聚,導致該方法對噪聲比較敏感,在推理階段容易生成一些面積較小的false positives。作者通過去除掉短邊小於10個像素或者面積小於300個像素的檢測結果來緩解這個問題。

TextSnake

TextSnake 主要是針對使用四邊形框不能有效地檢測任意形狀文本而提出的。該方法使用一系列重疊的圓盤來表示文本區域,每個圓盤有特定的圓心、半徑、方向。如圖1所示,通過預測文本區域、文本中心線(實際上是中心區域)、文本中心線上每個點對應的半徑以及角度來重建文本輪廓。後處理階段需要從預測的文本中心區域獲得多箇中心點作爲圓盤的圓心,然後根據圓心對應的半徑畫圓,最後將所有圓的輪廓包圍起來得到最終的文本邊界框。

圖2. TextSnake 文本表徵方法

圖3. 中心點機制

獲得圓盤中心點的步驟如圖3所示,首先在預測的文本中心區域隨機取一個點,然後根據預測的方向做該點的切線和法線,法線和文本中心區域的兩端的交點的中點(圖(a)的紅點)即是該處的中心點(作爲圓盤的圓心)。中心點沿着兩個相反的方向前進一定的步長,得到兩個新的點,而後根據這兩個新的點再尋找對應的中點。以此類推,直到進行到文本中心區域的兩端。

該方法能有效地檢測任意形狀、方向的文本,但是後處理比較複雜且耗時。

CRAFT

CRAFT主要是針對基於字符級的文本檢測方法對於曲形文本檢測存在限制的問題而提出的,但同樣適用於彎曲文本檢測。該論文的思路是通過迴歸字符和字符間的親和力來檢測任意形狀文本,這裏的親和力是用於表示相鄰的字符是否屬於同一個文本實例。此外,由於很多數據集沒有提供字符級標註,本文提出一個弱監督算法來從字級標註中生成字符級標註。

圖4. CRAFT網絡架構

如圖4所示,字符區域和相鄰字符親和力都是通過一個通道進行迴歸得到。

圖5. CRAFT 字符區域的ground-truth生成方法

用於訓練模型的字符區域得分和親和力得分的ground truth生成過程如圖5所示。對於字符區域得分,首先生成一個2D高斯圖,然後計算該高斯圖變換到對應的字符框的透視變換矩陣,最後使用這個矩陣將2D高斯圖變換到相應的字符區域。對於親和力得分的ground-truth的生成也是使用相同的方法,前提只需要獲得親和力框。獲得親和力框的過程如下:1. 每個字符框連接對角線將字符框劃分爲4個三角形,取上下方的三角形的中心作爲親和力框的頂點。2.相鄰兩個字符框得到的2個上三角形和下三角形的中心作爲四邊形的頂點構成了一個親和力邊框。

弱監督字符生成算法生成字符僞標籤的過程: 1. 使用在合成數據集訓練好的模型預測剪裁下來的文本區域的字符區域得分;2. 使用分水嶺算法得到每個字符區域;3. 將座標變換到原圖得到實際的字符邊框座標。

圖6. CRAFT 弱監督學習過程

後處理:在推理階段,預測出字符和親和力圖之後,置信度大於指定閾值的字符區域和親和力區域都被置爲1。然後標記每個連通區域。最後,對於四邊形文本,使用最小外界矩形作爲邊框。

圖7. 彎曲文本邊框重組過程。

對於曲形文本,獲得文本輪廓的過程如圖7所示:第一步是沿着字符的方向找到每個字符區域的局部最長線;每條線的中心連接起來的線爲中心線;每條局部最長線旋轉到與中心線垂直;兩端的線移動到文本區域的兩端;將所有端點連接得到曲形文本邊框。

區域重組的文本檢測算法

PSENet

PSENet 是一個純分割的文本檢測方法,該方法的初衷是爲了有效地分離任意形狀的相鄰文本。它通過預測多個尺度的文本分割圖來實現這個目的。具體如圖1所示,這裏以預測3個尺度的分割圖爲例,即(a),(e),(f)。後處理的流程如下:首先從最小尺度的分割圖(a)給各個連接組件分配標籤,然後將(a)向四周擴張從而合併(e)中的被預測爲文本的像素。同理,合併(f)中的文本像素。

圖1. PSENet 漸進式擴展過程

這種漸進地、從小到大合併相鄰文本像素的方法能有效地分離相鄰文本實例,但是付出的代價就是速度很慢,通過C++能緩解速度慢的問題。

PAN

PAN主要是針對現有的文本檢測方法速度太慢,不能實現工業化應用而設計的。該方法從兩方面來提升文本檢測的速度。第一,從網絡結構上,該方法使用了輕量級的ResNet18作爲backbone。但ResNet18的特徵提取能力不夠強,並且得到的感受野不夠大。因此,進一步提出了輕量級的特徵增強模塊和特徵融合模塊,該特徵增強模塊類似於FPN,且可以多個級聯在一起。特徵增強模塊在只增加少量的計算量的前提下有效地增強了模型的特徵提取能力,並增大了感受野。第二,從後處理上提升速度。該方法通過預測文本區域,文本中心區域(kernel),以及像素間的相似度來檢測文本。使用聚類的思想,kernel是聚類中心,文本像素是需要聚類的樣本。爲了聚類,屬於同一個文本實例的kernel和對應的像素的相似度向量之間的距離應該儘可能小,不同kernels的相似度向量的距離應該遠。在推理階段,首先根據kernel得到連接組件,然後沿着四周合併與kernel的距離小於閾值d的像素。該方法在實現高精度的同時還取得了實時的文本檢測速度.

圖2. PAN網絡結構

MSR

MSR是爲了解決多尺度文本檢測困難而提出來的。與別的文本檢測方法不同,該方法使用了多個一樣的backbone,並將輸入圖像下采樣到多個尺度之後連同原圖一起輸入到這些backbone,最後不同的backbone的特徵經過上採樣之後進行融合,從而捕獲了豐富的多尺度特徵。網絡最後預測文本中心區域、文本中心區域每個點到最近的邊界點的x座標偏移和y座標偏移。在推理階段,文本中心區域的每個點根據預測的x/y座標偏移得到對應的邊界點,最終的文本輪廓是包圍所有邊界點的輪廓。

圖3. MSR算法框架

圖4:MSR網絡結構

該方法的優點是對於多尺度文本有較強的檢測能力,但是由於該方法定義的文本中心區域只是文本區域在上下方向上進行了縮小,而左右方向沒有縮小,因此無法有效分離水平上相鄰的文本。

DB

DB主要是針對現有的基於分割的方法需要使用閾值進行二值化處理而導致後處理耗時且性能不夠好而提出的。該方法很巧妙地設計了一個近似於階躍函數的二值化函數,使得分割網絡在訓練的時候能學習文本分割的閾值。此外,在推理階段,該方法根據文本中心區域的面積和周長直接擴張一定的比例得到最終的文本輪廓,這也進一步提升了該方法的推理速度。整體上而言,DB對基於像素分割的文本檢測方法提供了一個很好的算法框架,解決了此類算法閾值配置的難題,同時又有較好的兼容性--開發者可以針對場景難點對backbone進行改造優化,達到一個較好的性能和精度的平衡。

圖5. DB網絡結構

基於像素分割的算法能精準地預測出任意形狀的文本實例,然後對於重疊文本區域,很難能將不同實例區分開來。要真正將該系列算法落地,滿足業務需求,未來需解決重疊文本的問題。

Reference

[1]. Deng D, Liu H, Li X, et al. Pixellink: Detecting scene text via instance segmentation[C] //Proceedings of the AAAI Conference on Artificial Intelligence. 2018, 32(1).

[2]. Long S, Ruan J, Zhang W, et al. Textsnake: A flexible representation for detecting text of arbitrary shapes[C]//Proceedings of the European conference on computer vision (ECCV). 2018: 20-36.

[3]. Baek Y, Lee B, Han D, et al. Character region awareness for text detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 9365-9374.

[4]. Wang W, Xie E, Li X, et al. Shape robust text detection with progressive scale expansion network[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 9336-9345.

[5]. Wang W, Xie E, Song X, et al. Efficient and accurate arbitrary-shaped text detection with pixel aggregation network[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 8440-8449.

[6]. Xue C, Lu S, Zhang W. Msr: Multi-scale shape regression for scene text detection[J]. arXiv preprint arXiv:1901.02596, 2019.

[7]. Liao M, Wan Z, Yao C, et al. Real-time scene text detection with differentiable binarization[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2020, 34(07): 11474-11481.

 

點擊關注,第一時間瞭解華爲雲新鮮技術~

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章