[論文閱讀]Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection

[論文閱讀]Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection
用於任意形狀文本檢測的深度關係推理圖網絡

文章收錄於2020 CVPR
[論文地址]https://arxiv.org/abs/2003.07493
[代碼地址]https://github.com/GXYM/DRRG

文章目錄

實驗

摘要

本文針對形狀文本檢測提出了一種新的統一關係推理圖網絡。局部圖(local graph)建立起了基於CNN的text proposal模型和基於GCN(Graph Convolutional Network)的深度關係推理網絡之間的關係，使模型可以端到端訓練。

簡介

目前一些方法，例如TextSnake[17]和CRAFT[1]爲了解決任意形狀文本檢測，採用了Connected Component (CC)策略（一些列的組件定位字符，最後合併組件）。這樣的缺點就是，無法獲得文字組件之間的更豐富的關係，從而無助於文本實例的劃分。

對於CC策略來講，一項重要的工作就是劃分文本實例。現有的方法常採用：預定義規則(pre-defined rules)、鏈接映射(link map)、嵌入映射(embedding map)。對於長文本和彎曲文本，一般來講，鏈接映射和嵌入映射比預定義規則更加魯棒。

鏈接映射與嵌入映射的方法大多基於CNN，且CNN不適合處理這些獨立的組件（非歐幾里得數據），即不能夠從兩個不相鄰的組件中學習相互之間的關係。

而這些非歐幾里得數據可以被表示爲圖，如圖1所示，本文選擇一個文本組件作爲一個節點，選擇一個節點作爲中樞，將中樞周圍的節點連起來形成局部圖。局部圖（節點之間的邊緣）中包含的上下文信息可爲估計樞紐節點與其他節點之間的鏈接可能性提供信息。

本文首先將每一個文本實例，切分爲文本組件。使用基於CNN的text proposal network預測這些文本組件的幾何屬性（高、寬、方向），然後利用這些幾何屬性採用了圖卷積網絡來執行深度關係推理，從而對這些組件進行分組聚合。

方法

概述

首先，通過基於CNN的text proposal network利用共享特徵來估計文本組建的幾何屬性；然後局部圖可以大致建立不同文本組建的鏈接；然後使用深度關係推理網絡將進一步推斷出文本組件與其相鄰組件之間的鏈接可能性；最後根據推理結果將文本組件聚合爲整體的文本實例。

其網絡框架如圖2所示；文本組件提議網絡(text component proposal network)和深層關係推理圖網絡共享卷積特徵，並且共享卷積使用VGG-16 和FPN [12]作爲主幹，如圖3所示。

文本組件預測

如圖4所示，(a)展示了一系列的文本組件，每個文本組件 $D$ 由(x,y,h,w,sin $\theta$ ,cos $\theta$ )組成。其中 $h$ 爲文本組件的高度，由(c )圖中的h1和h2兩部分組成。 $w$ 則是根據 $h$ 的大小確定的。
(b)中展示了文本組建的中心域，爲了確定文本中心域(text center region 記爲TCR)與文本組件的方向，本文采用了[17]中的方法來計算文本域的head和tail，如圖4(a)中黑色箭頭所示。

本文根據下列公式確定圖4(a)中的上下兩組點 $P1= \left\{tp0,tp1,...,tpi,...,tpn\right\}$ 和 $P2= \left\{bp0, bp1, ..., bpi, ..., bpn\right\}$ 。

$p=\sum_{i=0}^{n} \sin \left(v_{i}\right), v_{i} \in V$
其中 $V = \left\{tp0 − bp0,...,tpi − bpi,...,tpn − bpn\right\}$ ,向量 $v_i$ 的角度表示文本分量的方向 $θ$

TCR是通過縮小文本域(text region 記爲TR)得到的，其計算步驟：1. 計算文本中心行 2.將中心行兩端縮小0.5 $w$ 像素，使網絡更容易分離相鄰的文本實例並降低NMS的計算成本。 3.將文本中心行高度擴展0.3 $h$ 。

再提取共享特徵之後，通過兩個卷積層來計算CR(Classification and Regression)，即文本組件的幾何屬性, $C R=\operatorname{conv}_{1 \times 1}\left(\operatorname{conv}_{3 \times 3}\left(F_{\text {share}}\right)\right)$
其中CR是一個 $H*W*8$ 大小的張量，帶有4個通道的TR / TCR分類結果和4個通道的 $h1,h2,cos\theta,sin\theta$ 的迴歸結果。

通過Softmax TR / TCR並將平方和等於1的cosθ和sinθ正則化來獲得最終預測。最終的結果通過閾值與正樣本上的位置感知NMS產生。（TODO 不是很明白）

局部圖生成

本文對每一張圖片生成了多個局部圖，每個局部圖擁有有限個節點。本文修改了IPS[33]來生成局部圖，中樞節點附近的節點按照 $h$ - $hop$ 方法選擇。例如： $1$ - $hop$ 爲中樞節點的最近8鄰域節點； $2$ - $hop$ 爲中樞節點的最近4鄰域節點。高階的鄰居節點提供了樞紐與其鄰居之間上下文的局部結構的輔助信息，但此處本文只考慮每個形成KNN操作的節點之間的歐氏相似性 $Es$ ，計算方法爲
$E_{s}=1-D\left(p, v_{i}\right) / \max \left(H_{m}, W_{m}\right), v_{i} \in V_{p}$
其中 $D(p,vi)$ 是中樞 $p$ 與節點 $v_i$ 之間的L2距離， $H_m$ 是圖像的高度， $W_m$ 是圖像的寬度。

爲避免訓練中許多相同圖形導致容易樣本的累積積累，樞軸p應滿足以下條件：
$G_{i o u}=\frac{G_{p} \cap G_{q}}{G_{p} \cup G_{q}}<\xi, p, q \in T$
$G_p$ 和 $G_q$ 代表兩個局部圖，中樞 $p$ 與中樞 $q$ 是屬於同一文本實例 $T$ ，分子與分母分別是兩個局部圖的 $1$ - $hop$ 的交集與並集。

深度關係推理

局部圖中包含的粗略鏈接信息（節點之間的邊）對於估計樞軸及其鄰居之間的鏈接可能性很有用。在局部圖的基礎上，本文采用基於GCN的深度關係推理網絡來推斷中樞與其鄰域節點的鏈接可能性。圖通常表示爲 $g(X,A)$ ， $X$ 爲特徵矩陣， $A$ 爲鄰接矩陣。

Node Feature Extraction

如圖5中灰色矩形框所示，輸入節點特徵框需要由兩個部分組成：上面分支的幾何特徵和中間分支的RROI特徵。

其中RROI特徵的輸入爲圖3中的 $Fn$ ，然後可以得到一個 $1 \times 3 \times 4 \times C_{r}$ 大小的張量，進一步reshape成爲 $1\times12\cdot{C_r}$ 二維張量，記作 $F_r$ 。

文本組件的幾何屬性根據[29]和[5]被嵌入到高維度空間，嵌入是通過將不同波長的正弦和餘弦函數應用到標量 $z$ ，
$\begin{array}{c}\varepsilon_{2 i}(z)=\cos \left(\frac{z}{1000^{2 i / C_{\varepsilon}}}\right), i \in\left(0, C_{\varepsilon} / 2-1\right) \\ \varepsilon_{2 i+1}(z)=\sin \left(\frac{z}{1000^{2 i / C_{\varepsilon}}}\right), i \in\left(0, C_{\varepsilon} / 2-1\right)\end{array}$
其中，嵌入向量 ${\epsilon}(z)$ 的維數爲 $C_{\epsilon}$ ，結果是每一個文本組件都被嵌入到向量 $F_g$ 中，其維度爲 $6\cdot C_{\epsilon}$ 。

最終， $F_g$ 與 $F_r$ 執行Concat操作，作爲節點特徵。

Node Feature Normalization
爲了更好地將中樞 $p$ 的特徵編碼至局部圖中且爲了更容易地學習到中樞與其鄰居節點之間的鏈接可能性，本文將進行節點特徵的歸一化。
$\mathbf{F}_{p}=\left[\ldots, x_{q}-x_{p}, \ldots\right]^{T}, q \in V_{p}$
其中， $x_p$ 是中樞 $p$ 的特徵， $q$ 是屬於以 $p$ 爲中樞的局部圖 $V_p$ 的節點。

Adjacency Matrix Generation
本文使用鄰接矩陣 $A_{p} \in \Re^{N * N}$ 來代表局部圖。

Graph Convolutions
再得到了上述的 $X$ 和 $A$ 之後，本文采用基於圖的關係推理網絡。本文修改了[33]和[8]的結構，圖卷積層的計算如下：
$\begin{array}{c}\mathbf{Y}^{(l)}=\sigma\left(\left(\mathbf{X}^{(l)} \oplus \mathbf{G} \mathbf{X}^{(l)}\right) \mathbf{W}^{l}\right) \\ \mathbf{G}=\tilde{\mathbf{D}}^{-1 / 2} \tilde{\mathbf{A}} \tilde{\mathbf{D}}^{-1 / 2}\end{array}$
其中， $\mathbf{X}^{(l)} \in \Re^{N \times d_{i}}, \mathbf{Y}^{(l)} \in \Re^{N \times d_{o}}$ ， $d_{i} / d_{o}$ 是輸入/輸出節點的維度， $N$ 是節點個數， $\mathbf{G}$ 是 $N\times N$ 的對稱歸一化拉普拉斯算子， $\oplus$ 是矩陣concatenation操作， $W^{(l)}$ 是特定層的可訓練權重矩陣， $\sigma(\cdot)$ 是非線性激活函數， $\tilde{A}=A+I_{N}$ 是鄰接矩陣加上自連接，即 $I_N$ 是單位矩陣； $\tilde{\mathbf{D}}$ 是對角矩陣 $\tilde{D}_{i i}=\sum_{j} \tilde{A}_{i j}$ 。

本文中的深度推力模型由一個Batch Normalization層、4個接着ReLu的圖卷積層組成，採用了softmax交叉熵損失。

推理階段

根據關係推理結果，對文本組件分組
首先將閾值分別應用於TR和TCR，然後使用NMS減少冗餘
遍歷所有文本組件，以每個組件爲中心構造一個局部圖，因此獲得了由鏈接可能性加權的一組邊
使用寬度優先搜索BFS對鏈接進行聚類和合並
應用MinPath算法搜索所有文本組件中心的最短路徑，然後通過搜索結果對實例T的各個組件進行排序
順序地在有序文本組件中鏈接頂部和底部的中點，即可得到文本邊界

實驗

消融研究

使用關係推理網絡後，在Total-Text、CTW1500和TD500數據集上，Hmean比baseline分別提升1.83%、0.78%和4.27%。在Recall上分別提升3.05%、0.88%和3.78%。

使用關係推理網絡在TD500上的檢測性能明顯提高，但在CTW1500上並不明顯，原因是CTW1500的標註是令人迷惑的，一些小文本沒有標註，還有一些標註劃分不合理，如圖6所示。

與最優模型對比

多邊形數據集：

Total-Text
如圖7所示，本文提出的方法可以很好地檢測細小的彎曲文本並且可以很好地劃分排布緊密的文本。定量指標在Hmean上達到了85.73%，如表2所示。
CTW1500
本文方法同樣在CTW1500上可以精準的檢測文本邊界，定量上達到了recall(83.02%),Hmean(84.45%)。

四邊形數據集：本文針對此類數據集，將結果轉化爲矩形，使用最小的矩形進行評估。

MSRA-TD500
該數據集中包含很多長文本，本文方法可以成功地檢測出任意形狀、方向的長文本，如圖7所示。
定量結果在Hmean上達到了85.08%。
ICDARs (IC15, IC17)
IC15包含很多低分辨率和小文本實例；IC17包含很多多語言場景圖像和單詞級別標註。
定量結果如表3和表4所示，在IC15和IC17的Hmean指標上分別達到了86.56%和67.31%。

總結

本文提出新的基於組件連接（CC）策略的文本檢測方法。提出了基於圖卷積的深度關係推理網絡，來學習文本組件之間的鏈接可能性。

本文實驗不僅在任意形狀文本的數據集上表現出優越的檢測精度，而且也適合定向和多語言文本檢測。

遺憾的是，目前僅僅實現了檢測功能，下一階段應該完成端到端的文本閱讀方法。

參考文獻

[17] Shangbang Long, Jiaqiang Ruan, Wenjie Zhang, Xin He, Wenhao Wu, and Cong Yao. Textsnake: A flexible repre- sentation for detecting text of arbitrary shapes. In ECCV, pages 19–35, 2018. 1, 2, 3, 4, 7, 8

[1] Youngmin Baek, Bado Lee, Dongyoon Han, Sangdoo Yun, and Hwalsuk Lee. Character region awareness for text de- tection. In CVPR, pages 9365–9374, 2019. 1, 2, 3, 7, 8

[11] Minghui Liao, Zhen Zhu, Baoguang Shi, Gui-Song Xia, and Xiang Bai. Rotation-sensitive regression for oriented scene text detection. In CVPR, pages 5909–5918, 2018. 2

[13] Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott E. Reed, Cheng-Yang Fu, and Alexander C. Berg. SSD: Single shot multibox detector. In ECCV, pages 21–37, 2016. 2

[10] Minghui Liao, Baoguang Shi, and Xiang Bai. Textboxes++: A single-shot oriented scene text detector. IEEE Transac- tions on Image Processing, 27(8):3676–3690, 2018. 2, 8

[42] Xinyu Zhou, C.Yao, He Wen, Yuzhi Wang, Shuchang Zhou, Weiran He, and Jiajun Liang. EAST: An efficient and accu- rate scene text detector. In CVPR, pages 2642–2651, 2017. 1, 2, 8

[3] Dan Deng, Haifeng Liu, Xuelong Li, and Deng Cai. Pix- elLink: Detecting scene text via instance segmentation. In AAAI, pages 6773–6780, 2018. 2, 8

[30] Wenhai Wang, Enze Xie, Xiang Li, Wenbo Hou, Tong Lu, Gang Yu, and Shuai Shao. Shape robust text detection with progressive scale expansion network. In CVPR, pages 9336– 9345, 2019. 2, 7, 8

[28] ZhuotaoTian,MichelleShu,PengyuanLyu,RuiyuLi,Chao Zhou, Xiaoyong Shen, and Jiaya Jia. Learning shape-aware embedding for scene text detection. In CVPR, pages 4234– 4243, 2019. 2, 7, 8

[34] Yongchao Xu, Yukang Wang, Wei Zhou, Yongpan Wang, Zhibo Yang, and Xiang Bai. Textfield: Learning a deep di- rection field for irregular scene text detection. IEEE Trans. Image Processing, 28(11):5566–5579, 2019. 2, 7, 8

[27] ZhiTian,WeilinHuang,TongHe,PanHe,andYuQiao.De- tecting text in natural image with connectionist text proposal network. In ECCV, pages 56–72, 2016. 1, 2

[20] ShaoqingRen,KaimingHe,RossB.Girshick,andJianSun. Faster R-CNN: Towards real-time object detection with re- gion proposal networks. IEEE Trans. Pattern Anal. Mach. Intell., 39(6):1137–1149, 2017. 2, 4

[21] Baoguang Shi, Xiang Bai, and Serge J. Belongie. Detect- ing oriented text in natural images by linking segments. In CVPR, pages 3482–3490, 2017. 1, 2, 7, 8

[4] Wei Feng, Wenhao He, Fei Yin, Xu-Yao Zhang, and Cheng- Lin Liu. Textdragon: An end-to-end framework for arbitrary shaped text spotting. In ICCV, pages 9075–9084, 2019. 2, 7

[33] Zhongdao Wang, Liang Zheng, Yali Li, and Shengjin Wang. Linkage based face clustering via graph convolution net- work. In CVPR, pages 1117–1125, 2019. 2, 3, 4, 5, 6

[12] Tsung-Yi Lin, Piotr Dolla ́r, Ross B. Girshick, Kaiming He, Bharath Hariharan, and Serge J. Belongie. Feature pyramid networks for object detection. In CVPR, pages 936–944, 2017. 3

[29] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszko- reit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NeurIPS, pages 5998–6008, 2017. 5

[5] Jiayuan Gu, Han Hu, Liwei Wang, Yichen Wei, and Jifeng Dai. Learning region features for object detection. In ECCV, pages 392–406, 2018. 5

[8] Thomas N. Kipf and Max Welling. Semi-supervised classi- fication with graph convolutional networks. In ICLR, 2017. 5

[論文閱讀]Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection

文章目錄

摘要

簡介

相關工作

方法

概述

文本組件預測

局部圖生成

深度關係推理

推理階段

實驗

消融研究

與最優模型對比

總結

參考文獻

Ubuntu安裝破解版MATLAB及問題解決

吳恩達機器學習第六週測驗及編程作業和選做題

貪心-埃及分數

吳恩達機器學習第三章測試及編程練習

吳恩達機器學習第二週測試及編程練習

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結