[CVPR 2020]ContourNet:更準確的任意形狀場景文本檢測新方法

論文名稱:【2020 CVPR】ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene Text Detection

ContourNet論文地址:https://arxiv.org/pdf/2004.04940.pdf

ContourNet開源代碼:https://github.com/wangyuxin87/ContourNet

背景:

近年來場景文本檢測的研究發展迅速,但其中有兩個困難的挑戰未被很好解決,算法容易產生僞召回(False Positives)以及對尺度變化劇烈的文本檢測不準確。爲此,本文提出ContourNet算法,設計了Adaptive-RPN模塊生成更高精度質量的候選框,以及Local Orthogonal Texture-aware Module (LOTM)模塊來解耦候選框中的水平和豎直方向的文本輪廓檢測,從而向更精確的任意形狀的場景文本檢測又邁進一步。 

圖1 本文方法效果圖標題

 一、研究背景

 場景文字圖片中,文本尺度變化大,背景紋理複雜等困難導致了現有的場景文本檢測算法普遍存在兩個問題,僞召回(False Positives)多,以及對尺度變化劇烈的文本檢測不準確。針對僞召回問題,現有的方法大多基於文本的上下文信息,全局與局部關係,以及紋理信息建模。本文作者觀察發現,僞召回中的紋理特徵具有強烈的無方向性,即類似物理上的各向同性,於是將其解耦爲水平方向和豎直方向的輪廓檢測,通過其聯合響應來抑制僞召回。針對尺度變換劇烈問題,現有的方法多着眼於融合多尺度特徵來預測邊界框,作者則另闢蹊徑關注文本自身形狀信息的建模以及利用尺度不敏感的指標來優化網絡的檢測。

二、ContourNet原理簡述

圖2 網絡整體框架圖

 

圖2是網絡的整體框架圖。ContourNet 由三個模塊組成,第一個是Adaptive-RPN模塊,用於生成高質量精度的矩形候選框;第二個是Local Orthogonal Texture-aware Module (LOTM)模塊,用於解耦候選框中水平和豎直兩個方向的輪廓檢測;第三個是Point Re-scoring Algorithm模塊,用於耦合水平和豎直方向的輪廓響應分數。下面分別介紹每個模塊的結構。

主幹網絡採用類似FPN結構 [1],輸出卷積特徵到Adaptive-RPN,然後使用類似Faster RCNN [2]的方法,計算候選區域分類和迴歸損失。在其經典的RPN [2] 中,直接回歸檢測框中心點和長寬四個偏移量,而Adaptive-RPN則迴歸預定義好的9個點的座標偏移量,(四角點,四條邊中心點,候選框中心點),如圖3所示。迴歸後取外圍8點的最小包圍框,而中心點則用於矯正(e.g. 包圍框左邊界超過中心點,直接取中心點爲左界)。不同於使用經典的Smooth L1 loss[2],作者利用IoU loss [3] 的尺度不敏感特性來回歸更準確的邊界框。 

圖3 左圖是經典RPN,右圖是Adaptive-RPN。紅點是預定義好的迴歸前的錨點,綠點是迴歸後的點,黃色箭頭是迴歸偏移量方向示意。

圖4爲LOTM結構。LOTM模塊的輸入Proposal Features是在Adaptive-RPN後的共享特徵圖上使用Deformable RoI pooling [4] 和雙線性插值得到。經過1*1卷積後,展開兩個平行分支,解耦爲水平和和豎直兩個正交方向的輪廓檢測。水平方向分支使用1*k的卷積核水平方向卷積,豎直方向分支則使用k*1的卷積核豎直方向卷積,k是超參數,實驗驗證使用k=3比較好。卷積後的特徵圖經過Sigmoid歸一化得到相應方向的熱圖。LOTM使用交叉熵損失分類輪廓邊界點。

圖4 LOTM與Point Re-scoring Algorithm的結構。其中Point Re-scoring Algorithm只用於測試階段。

 Point Re-scoring Algorithm模塊中,先對兩個方向熱圖進行簡單的NMS預處理濾波得到更高置信度的準確表徵,然後綜合考慮LOTM輸出的水平和垂直方向上響應,即文本輪廓需同時具有兩個方向的響應,濾除單方向噪聲,從而抑制僞召回。

三、主要實驗結果及可視化效果

Table 1. The single-scale results on Total-Text. * indicates the results from [5]. Ext is the short for external data used in training stage. y means testing at multi-scale setting. The evaluation protocol is DetEval. 

 Table 2. The single-scale results on CTW1500. * indicates the results from [6]. Ext is the short for external data used in training stage. + means testing at multi-scale setting.

Table 3. The single-scale results on ICDAR2015. * means testing at multi-scale setting. + means SE blocks [7] implemented in their backbone.  

Table 4. The performance gain of Adaptive-RPN. * and + are results from CTW1500 and Total-Text respectively. Small, Middle and Large is short for small-size texts, middle-size texts and large size texts.

Table 5. The performance gain of LOTM on Total-Text. S direction means the texture information is only modeled along a single direction (horizontal direction is implemented here). Jointly means the method jointly models the texture information in a 3*3 convolutional kernel.

圖5 可視化結果圖

作者在Total-Text,CTW-1500,ICDAR2015,三個數據集上進行了測試,Table 1,Table 2,Table 3分別是模型在上述三個數據集的性能,可以看出ContourNet在有高精度的同時具有不錯的速度。Table 4是使用RPN與本文提出的Adaptive-RPN對比結果,可以看出對不同尺度的文本都有一定的提升。Table 5是LOTM模塊對比實驗,可以看出使用單一方向或者3*3直接滑動卷積得到結果都比解耦成水平與豎直方向的LOTM差。

四、總結及討論

本文提出了更精確的任意方向文本檢測算法ContourNet,針對僞召回問題設計了文本水平與豎直方向的輪廓檢測方法,針對尺度變換大的文本回歸不准問題,使用改進的9點Adaptive-RPN迴歸與尺度不敏感的IoU Loss計算損失。論文通過實驗對比也證明了該方法的高效性以及模型的優越性能。

參考文獻

[1] Tsung-Yi Lin, Piotr Doll´ar, Ross B. Girshick, Kaiming He, Bharath Hariharan, and Serge J. Belongie. Feature pyramid networks for object detection. In CVPR, pages 936–944, 2017.

[2] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. In Advances in neural information processing systems, pages 91–99, 2015.

[3] Hamid Rezatofighi, Nathan Tsoi, JunYoung Gwak, Amir Sadeghian, Ian Reid, and Silvio Savarese. Generalized intersection over union: A metric and a loss for bounding box regression. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 658–666, 2019.

[4] Xizhou Zhu, Han Hu, Stephen Lin, and Jifeng Dai. Deformable convnets v2: More deformable, better results. In CVPR, 2019.

[5] Shangbang Long, Jiaqiang Ruan, Wenjie Zhang, Xin He, Wenhao Wu, and Cong Yao. Textsnake: A flexible representation for detecting text of arbitrary shapes. In ECCV, pages 19–35. Springer, 2018.

[6] Yuliang Liu, Lianwen Jin, Shuaitao Zhang, Canjie Luo, Sheng Zhang.Curved scene text detection via transverse and longitudinal sequence connection. Pattern Recognition 90:337–345.

[7] Jie Hu, Li Shen, and Gang Sun. Squeeze-and-excitation networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 7132–7141, 2018. 

本文只是別人的理解,自己簡單看了一下,感覺還不錯,所以和大家分享一下,後期會精讀一下,然後加入自己的理解。
(若侵權請告知,馬上刪除)


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章