[論文閱讀]Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection

[論文閱讀]Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection
用於任意形狀文本檢測的深度關係推理圖網絡

文章收錄於2020 CVPR
[論文地址]https://arxiv.org/abs/2003.07493
[代碼地址]https://github.com/GXYM/DRRG

摘要

本文針對形狀文本檢測提出了一種新的統一關係推理圖網絡。局部圖(local graph)建立起了基於CNN的text proposal模型和基於GCN(Graph Convolutional Network)的深度關係推理網絡之間的關係,使模型可以端到端訓練。


簡介

目前一些方法,例如TextSnake[17]CRAFT[1]爲了解決任意形狀文本檢測,採用了Connected Component (CC)策略(一些列的組件定位字符,最後合併組件)。這樣的缺點就是,無法獲得文字組件之間的更豐富的關係,從而無助於文本實例的劃分。

對於CC策略來講,一項重要的工作就是劃分文本實例。現有的方法常採用:預定義規則(pre-defined rules)、鏈接映射(link map)、嵌入映射(embedding map)。對於長文本和彎曲文本,一般來講,鏈接映射和嵌入映射比預定義規則更加魯棒。

鏈接映射與嵌入映射的方法大多基於CNN,且CNN不適合處理這些獨立的組件(非歐幾里得數據),即不能夠從兩個不相鄰的組件中學習相互之間的關係。

而這些非歐幾里得數據可以被表示爲圖,如圖1所示,本文選擇一個文本組件作爲一個節點,選擇一個節點作爲中樞,將中樞周圍的節點連起來形成局部圖。局部圖(節點之間的邊緣)中包含的上下文信息可爲估計樞紐節點與其他節點之間的鏈接可能性提供信息。
在這裏插入圖片描述

本文首先將每一個文本實例,切分爲文本組件。使用基於CNN的text proposal network預測這些文本組件的幾何屬性(高、寬、方向),然後利用這些幾何屬性採用了圖卷積網絡來執行深度關係推理,從而對這些組件進行分組聚合。


相關工作

基於迴歸的方法:此類方法使用單詞級別(word level)或者行級別(line level)的ground-truth,通過基於框迴歸的文本檢測框架。

  • RRD[11]調整SSD [13]的錨定比,以適應非規則形狀的寬高比變化。
  • Textboxes ++ [10]修改了卷積核和錨定框,以有效地捕獲各種文本形狀。
  • EAST [42]直接推斷候選單詞的像素級四邊形,而無需錨定機制和proposal檢測。

基於分割的方法:受語義分割思想的啓發,通過估計單詞邊界區域來檢測文本。

  • PixelLink [3]通過預測像素與其相鄰像素之間的鏈接關係,對屬於同一實例的像素進行分類。
  • PSENet [30]採用多種尺度漸進擴展網絡,利用ground truth生成一系列不同大小的mask,最終提高了不規則文本的檢測能力。
  • Tian等人[28]將每個實例文本視爲一個聚類,通過嵌入映射對像素進行聚類。
  • TextField [34]採用深度方向域(deep direction field)來鏈接相鄰像素並生成候選文本部分。

基於CC的方法:首先通常檢測單個文本部分或字符,然後通過鏈接或者分組的後續處理生成最終的文本。

  • CTPN [27]使用了一個基於Faster R-CNN [20]修改的網絡,來提取具有固定寬度的文本,以輕鬆連接密集的文本組件並生成水平文本行。
  • SegLink [21]將每個場景文本分解爲兩個可檢測的元素,即段和鏈接,其中鏈接指示一對相鄰的段屬於同一單詞。
  • CRAFT [1]通過探索每個字符與字符之間的親和關係來檢測文本區域。
  • TextDragon[4] 首先檢測文字的局部區域,然後根據邊界框的幾何關係對其進行分組

關係推理:對於局部卷積算子的限制,CNN不能直接捕獲遠距離分量區域之間的關係。最近,Wang等人[33]爲了解決這種問題,提出了基於頻譜的GCN方法來聚類人臉。在複雜情況下,設計的GCN可以合理地鏈接屬於同一個人的不同面部實例。

方法

概述

首先,通過基於CNN的text proposal network利用共享特徵來估計文本組建的幾何屬性;然後局部圖可以大致建立不同文本組建的鏈接;然後使用深度關係推理網絡將進一步推斷出文本組件與其相鄰組件之間的鏈接可能性;最後根據推理結果將文本組件聚合爲整體的文本實例。

其網絡框架如圖2所示;文本組件提議網絡(text component proposal network)和深層關係推理圖網絡共享卷積特徵,並且共享卷積使用VGG-16FPN [12]作爲主幹,如圖3所示。

在這裏插入圖片描述
在這裏插入圖片描述

文本組件預測

如圖4所示,(a)展示了一系列的文本組件,每個文本組件DD由(x,y,h,w,sinθ\theta,cosθ\theta)組成。其中hh爲文本組件的高度,由(c )圖中的h1和h2兩部分組成。ww則是根據hh的大小確定的。
(b)中展示了文本組建的中心域,爲了確定文本中心域(text center region 記爲TCR)與文本組件的方向,本文采用了[17]中的方法來計算文本域的head和tail,如圖4(a)中黑色箭頭所示。

在這裏插入圖片描述
本文根據下列公式確定圖4(a)中的上下兩組點P1={tp0,tp1,...,tpi,...,tpn}P1= \left\{tp0,tp1,...,tpi,...,tpn\right\}P2={bp0,bp1,...,bpi,...,bpn}P2= \left\{bp0, bp1, ..., bpi, ..., bpn\right\}

p=i=0nsin(vi),viV p=\sum_{i=0}^{n} \sin \left(v_{i}\right), v_{i} \in V
其中V={tp0bp0,...,tpibpi,...,tpnbpn}V = \left\{tp0 − bp0,...,tpi − bpi,...,tpn − bpn\right\},向量viv_i的角度表示文本分量的方向θθ

TCR是通過縮小文本域(text region 記爲TR)得到的,其計算步驟:1. 計算文本中心行 2.將中心行兩端縮小0.5ww像素,使網絡更容易分離相鄰的文本實例並降低NMS的計算成本。 3.將文本中心行高度擴展0.3hh

再提取共享特徵之後,通過兩個卷積層來計算CR(Classification and Regression),即文本組件的幾何屬性, CR=conv1×1(conv3×3(Fshare))C R=\operatorname{conv}_{1 \times 1}\left(\operatorname{conv}_{3 \times 3}\left(F_{\text {share}}\right)\right)
其中CR是一個HW8H*W*8大小的張量,帶有4個通道的TR / TCR分類結果和4個通道的h1,h2,cosθ,sinθh1,h2,cos\theta,sin\theta的迴歸結果。

通過Softmax TR / TCR並將平方和等於1的cosθ和sinθ正則化來獲得最終預測。最終的結果通過閾值與正樣本上的位置感知NMS產生。(TODO 不是很明白 )

局部圖生成

本文對每一張圖片生成了多個局部圖,每個局部圖擁有有限個節點。本文修改了IPS[33]來生成局部圖,中樞節點附近的節點按照hh-hophop方法選擇。例如:11-hophop爲中樞節點的最近8鄰域節點;22-hophop爲中樞節點的最近4鄰域節點。高階的鄰居節點提供了樞紐與其鄰居之間上下文的局部結構的輔助信息,但此處本文只考慮每個形成KNN操作的節點之間的歐氏相似性EsEs,計算方法爲
Es=1D(p,vi)/max(Hm,Wm),viVp E_{s}=1-D\left(p, v_{i}\right) / \max \left(H_{m}, W_{m}\right), v_{i} \in V_{p}
其中D(p,vi)D(p,vi)是中樞pp與節點viv_i之間的L2距離,HmH_m是圖像的高度,WmW_m是圖像的寬度。

爲避免訓練中許多相同圖形導致容易樣本的累積積累,樞軸p應滿足以下條件:
Giou=GpGqGpGq<ξ,p,qT G_{i o u}=\frac{G_{p} \cap G_{q}}{G_{p} \cup G_{q}}<\xi, p, q \in T
GpG_pGqG_q代表兩個局部圖,中樞pp與中樞qq是屬於同一文本實例TT,分子與分母分別是兩個局部圖的11-hophop的交集與並集。

深度關係推理

局部圖中包含的粗略鏈接信息(節點之間的邊)對於估計樞軸及其鄰居之間的鏈接可能性很有用。在局部圖的基礎上,本文采用基於GCN的深度關係推理網絡來推斷中樞與其鄰域節點的鏈接可能性。圖通常表示爲g(X,A)g(X,A)XX爲特徵矩陣,AA爲鄰接矩陣。

在這裏插入圖片描述

Node Feature Extraction

如圖5中灰色矩形框所示,輸入節點特徵框需要由兩個部分組成:上面分支的幾何特徵和中間分支的RROI特徵。

其中RROI特徵的輸入爲圖3中的FnFn,然後可以得到一個1×3×4×Cr1 \times 3 \times 4 \times C_{r}大小的張量,進一步reshape成爲1×12Cr1\times12\cdot{C_r}二維張量,記作FrF_r

文本組件的幾何屬性根據[29][5]被嵌入到高維度空間,嵌入是通過將不同波長的正弦和餘弦函數應用到標量zz
ε2i(z)=cos(z10002i/Cε),i(0,Cε/21)ε2i+1(z)=sin(z10002i/Cε),i(0,Cε/21) \begin{array}{c}\varepsilon_{2 i}(z)=\cos \left(\frac{z}{1000^{2 i / C_{\varepsilon}}}\right), i \in\left(0, C_{\varepsilon} / 2-1\right) \\ \varepsilon_{2 i+1}(z)=\sin \left(\frac{z}{1000^{2 i / C_{\varepsilon}}}\right), i \in\left(0, C_{\varepsilon} / 2-1\right)\end{array}
其中,嵌入向量ϵ(z){\epsilon}(z)的維數爲CϵC_{\epsilon},結果是每一個文本組件都被嵌入到向量FgF_g中,其維度爲6Cϵ6\cdot C_{\epsilon}

最終,FgF_gFrF_r執行Concat操作,作爲節點特徵。

Node Feature Normalization
爲了更好地將中樞pp的特徵編碼至局部圖中且爲了更容易地學習到中樞與其鄰居節點之間的鏈接可能性,本文將進行節點特徵的歸一化。
Fp=[,xqxp,]T,qVp \mathbf{F}_{p}=\left[\ldots, x_{q}-x_{p}, \ldots\right]^{T}, q \in V_{p}
其中,xpx_p是中樞pp的特徵,qq是屬於以pp爲中樞的局部圖VpV_p的節點。

Adjacency Matrix Generation
本文使用鄰接矩陣ApNNA_{p} \in \Re^{N * N}來代表局部圖。

Graph Convolutions
再得到了上述的XXAA之後,本文采用基於圖的關係推理網絡。本文修改了[33][8]的結構,圖卷積層的計算如下:
Y(l)=σ((X(l)GX(l))Wl)G=D~1/2A~D~1/2 \begin{array}{c}\mathbf{Y}^{(l)}=\sigma\left(\left(\mathbf{X}^{(l)} \oplus \mathbf{G} \mathbf{X}^{(l)}\right) \mathbf{W}^{l}\right) \\ \mathbf{G}=\tilde{\mathbf{D}}^{-1 / 2} \tilde{\mathbf{A}} \tilde{\mathbf{D}}^{-1 / 2}\end{array}
其中,X(l)N×di,Y(l)N×do\mathbf{X}^{(l)} \in \Re^{N \times d_{i}}, \mathbf{Y}^{(l)} \in \Re^{N \times d_{o}}di/dod_{i} / d_{o}是輸入/輸出節點的維度,NN是節點個數,G\mathbf{G}N×NN\times N的對稱歸一化拉普拉斯算子,\oplus是矩陣concatenation操作,W(l)W^{(l)}是特定層的可訓練權重矩陣,σ()\sigma(\cdot)是非線性激活函數,A~=A+IN\tilde{A}=A+I_{N}是鄰接矩陣加上自連接,即INI_N是單位矩陣;D~\tilde{\mathbf{D}}是對角矩陣D~ii=jA~ij\tilde{D}_{i i}=\sum_{j} \tilde{A}_{i j}

本文中的深度推力模型由一個Batch Normalization層、4個接着ReLu的圖卷積層組成,採用了softmax交叉熵損失。

推理階段

  • 根據關係推理結果,對文本組件分組
  • 首先將閾值分別應用於TR和TCR,然後使用NMS減少冗餘
  • 遍歷所有文本組件,以每個組件爲中心構造一個局部圖,因此獲得了由鏈接可能性加權的一組邊
  • 使用寬度優先搜索BFS對鏈接進行聚類和合並
  • 應用MinPath算法搜索所有文本組件中心的最短路徑,然後通過搜索結果對實例T的各個組件進行排序
  • 順序地在有序文本組件中鏈接頂部和底部的中點,即可得到文本邊界

實驗

消融研究

在這裏插入圖片描述
使用關係推理網絡後,在Total-Text、CTW1500和TD500數據集上,Hmean比baseline分別提升1.83%、0.78%和4.27%。在Recall上分別提升3.05%、0.88%和3.78%。

使用關係推理網絡在TD500上的檢測性能明顯提高,但在CTW1500上並不明顯,原因是CTW1500的標註是令人迷惑的,一些小文本沒有標註,還有一些標註劃分不合理,如圖6所示。
在這裏插入圖片描述

與最優模型對比

在這裏插入圖片描述
在這裏插入圖片描述
多邊形數據集:

  • Total-Text
    如圖7所示,本文提出的方法可以很好地檢測細小的彎曲文本並且可以很好地劃分排布緊密的文本。定量指標在Hmean上達到了85.73%,如表2所示。

  • CTW1500
    本文方法同樣在CTW1500上可以精準的檢測文本邊界,定量上達到了recall(83.02%),Hmean(84.45%)。

四邊形數據集:本文針對此類數據集,將結果轉化爲矩形,使用最小的矩形進行評估。

  • MSRA-TD500
    該數據集中包含很多長文本,本文方法可以成功地檢測出任意形狀、方向的長文本,如圖7所示。
    定量結果在Hmean上達到了85.08%。

  • ICDARs (IC15, IC17)
    IC15包含很多低分辨率和小文本實例;IC17包含很多多語言場景圖像和單詞級別標註。
    定量結果如表3和表4所示,在IC15和IC17的Hmean指標上分別達到了86.56%和67.31%。
    在這裏插入圖片描述
    在這裏插入圖片描述

總結

本文提出新的基於組件連接(CC)策略的文本檢測方法。提出了基於圖卷積的深度關係推理網絡,來學習文本組件之間的鏈接可能性。

本文實驗不僅在任意形狀文本的數據集上表現出優越的檢測精度,而且也適合定向和多語言文本檢測。

遺憾的是,目前僅僅實現了檢測功能,下一階段應該完成端到端的文本閱讀方法。

參考文獻

[17] Shangbang Long, Jiaqiang Ruan, Wenjie Zhang, Xin He, Wenhao Wu, and Cong Yao. Textsnake: A flexible repre- sentation for detecting text of arbitrary shapes. In ECCV, pages 19–35, 2018. 1, 2, 3, 4, 7, 8
[1] Youngmin Baek, Bado Lee, Dongyoon Han, Sangdoo Yun, and Hwalsuk Lee. Character region awareness for text de- tection. In CVPR, pages 9365–9374, 2019. 1, 2, 3, 7, 8
[11] Minghui Liao, Zhen Zhu, Baoguang Shi, Gui-Song Xia, and Xiang Bai. Rotation-sensitive regression for oriented scene text detection. In CVPR, pages 5909–5918, 2018. 2
[13] Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott E. Reed, Cheng-Yang Fu, and Alexander C. Berg. SSD: Single shot multibox detector. In ECCV, pages 21–37, 2016. 2
[10] Minghui Liao, Baoguang Shi, and Xiang Bai. Textboxes++: A single-shot oriented scene text detector. IEEE Transac- tions on Image Processing, 27(8):3676–3690, 2018. 2, 8
[42] Xinyu Zhou, C.Yao, He Wen, Yuzhi Wang, Shuchang Zhou, Weiran He, and Jiajun Liang. EAST: An efficient and accu- rate scene text detector. In CVPR, pages 2642–2651, 2017. 1, 2, 8
[3] Dan Deng, Haifeng Liu, Xuelong Li, and Deng Cai. Pix- elLink: Detecting scene text via instance segmentation. In AAAI, pages 6773–6780, 2018. 2, 8
[30] Wenhai Wang, Enze Xie, Xiang Li, Wenbo Hou, Tong Lu, Gang Yu, and Shuai Shao. Shape robust text detection with progressive scale expansion network. In CVPR, pages 9336– 9345, 2019. 2, 7, 8
[28] ZhuotaoTian,MichelleShu,PengyuanLyu,RuiyuLi,Chao Zhou, Xiaoyong Shen, and Jiaya Jia. Learning shape-aware embedding for scene text detection. In CVPR, pages 4234– 4243, 2019. 2, 7, 8
[34] Yongchao Xu, Yukang Wang, Wei Zhou, Yongpan Wang, Zhibo Yang, and Xiang Bai. Textfield: Learning a deep di- rection field for irregular scene text detection. IEEE Trans. Image Processing, 28(11):5566–5579, 2019. 2, 7, 8
[27] ZhiTian,WeilinHuang,TongHe,PanHe,andYuQiao.De- tecting text in natural image with connectionist text proposal network. In ECCV, pages 56–72, 2016. 1, 2
[20] ShaoqingRen,KaimingHe,RossB.Girshick,andJianSun. Faster R-CNN: Towards real-time object detection with re- gion proposal networks. IEEE Trans. Pattern Anal. Mach. Intell., 39(6):1137–1149, 2017. 2, 4
[21] Baoguang Shi, Xiang Bai, and Serge J. Belongie. Detect- ing oriented text in natural images by linking segments. In CVPR, pages 3482–3490, 2017. 1, 2, 7, 8
[4] Wei Feng, Wenhao He, Fei Yin, Xu-Yao Zhang, and Cheng- Lin Liu. Textdragon: An end-to-end framework for arbitrary shaped text spotting. In ICCV, pages 9075–9084, 2019. 2, 7
[33] Zhongdao Wang, Liang Zheng, Yali Li, and Shengjin Wang. Linkage based face clustering via graph convolution net- work. In CVPR, pages 1117–1125, 2019. 2, 3, 4, 5, 6
[12] Tsung-Yi Lin, Piotr Dolla ́r, Ross B. Girshick, Kaiming He, Bharath Hariharan, and Serge J. Belongie. Feature pyramid networks for object detection. In CVPR, pages 936–944, 2017. 3
[29] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszko- reit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NeurIPS, pages 5998–6008, 2017. 5
[5] Jiayuan Gu, Han Hu, Liwei Wang, Yichen Wei, and Jifeng Dai. Learning region features for object detection. In ECCV, pages 392–406, 2018. 5
[8] Thomas N. Kipf and Max Welling. Semi-supervised classi- fication with graph convolutional networks. In ICLR, 2017. 5
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章