R2CNN 論文詳解

R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection

R2CNN：旋轉區域CNN用於方向魯棒性的場景文本檢測（29 Jun 2017 三星中國）

聲明：筆者翻譯論文僅爲學習研究，如有侵權請聯繫作者刪除博文，謝謝！

源論文地址：https://arxiv.org/abs/1706.09579
筆者踐行代碼：https://github.com/DetectionTeamUCAS/R2CNN_Faster-RCNN_Tensorflow

注：文字中標粗和亮色的部分爲筆者認爲有創新改進餘地和需要注意的地方，灰色背景部分爲筆者的一些想法。因水平所限，部分筆觸可能有不實和錯誤之處，敬請廣大讀者批評指正，讓我們一起進步~

注：本文中提到的創新點類別爲筆者自己定義，1類創新點是根本性創新，指前人沒有或者較爲新穎的方法；2類創新點是借鑑型創新，指所用方法在相關領域或者別的模型中有所使用，嫁接而來；3類創新點是改進型創新，指更改一些關鍵參數以提升使用的魯棒性。

-----------------------------------------------------------------------------------------------------------------------------------------

摘要

本文提出了一種新的旋轉區域CNN（R2CNN）檢測自然場景圖像中任意定向文本的方法。該框架基於Faster R-CNN[1]架構。首先，我們使用區域建議網絡(RPN)生成圍繞不同方向文本的水平框。其次，對於RPN提議的每個水平框，提取不同集合大小的集合特徵，利用級聯特徵同時預測文本/非文本分數、水平框和傾斜最小區域框。最後，採用傾斜的非極大值抑制來得到檢測結果。我們的方法在文本檢測基準方面取得了競爭性成果：2015年ICDAR和2013年ICDAR。

這裏的水平框和傾斜最小區域框是筆者按自己的理解翻譯的，原文中水平框對應 axis-aligned bounding boxes，就是四四方方正常的四點座標框；傾斜最小區域框對應 inclined minimum area box，是那種八點座標框，可以對方向進行預測。

1 介紹

       自然場景中的文本(如街道名牌、商店名稱、名字)在我們的日常生活中扮演着重要的角色。它們攜帶有關環境的基本信息。理解場景文本後，可以廣泛用於多個領域，比如文本檢索、翻譯等。理解場景文本通常有兩個關鍵步驟：文本檢測和文本識別。本文主要研究文本檢測。場景文本檢測具有挑戰性，因爲場景文本具有不同的大小、寬度、高度、寬高比、字體樣式、光照、透視失真、方向等。由於定位信息對於場景文本識別和其他任務是有用的，場景文本檢測不同於一般的目標檢測任務，即除了水平包圍框信息外，還應該對文本的方向進行預測。
       大多數以前的文本檢測方法被設計用於檢測水平或接近水平的文本[2,3,4,5,6,7,8,9,10,11,12,14],也有一些方法試圖解決任意取向的文本檢測問題[15,16,17,18,19,20,31,32,33,34]。最近，任意取向的場景文本檢測是一個熱門的研究領域，可以從ICDAR2015附屬場景目標檢測魯棒性閱讀競賽的頻繁更新結果中看出[21]。傳統的文本檢測方法基於滑動窗口或Connected Components (CCs)[2,3,4,6,10,13,17,18,19,20],最近廣泛研究了基於深度學習的方法[7,8,9,12,15,16,31,32, 33,34]。
       本文提出了一種用於檢測任意方位場景文本的旋轉區域CNN(R2CNN)。它基於Faster R-CNN架構[1]。圖1示出了所提出的方法的過程。

圖1 R2CNN的過程： (a)原始輸入圖像；(b)由RPN生成的文本區域(平行邊界框)； (c )預測的平行框和傾斜最小面積框(每個斜框與平行框相關聯，關聯框對用相同的顏色表示)；(d)傾斜非極大值抑制後的檢測結果。

圖1(A)是原始輸入圖像。我們首先使用RPN來提出包圍文本的平行邊界框(圖1(B))。然後我們對提議框進行分類，精簡平行框。對具有不同尺寸的集合特徵合併，以預測傾斜最小區域框(圖1(C ))。最後，利用傾斜非極大值抑制進行檢測處理候選，以獲得最終檢測結果 (圖1(D)。我們的方法在ICDAR 2015附帶文本檢測基準上的F-measure 爲82.54%，在ICDAR 2013聚焦文本檢測基準上爲 87.73%。

總結下 R2CNN 的檢測過程（圖1）：

提取特徵網絡；

使用RPN生成水平框，並進行分類和精簡（粗檢測——只分類前景和背景）；

對具有不同尺寸的集合特徵合併，以預測具體目標分數、水平框以及與之關聯的傾斜最小區域框；（細檢測——具體類別）

採用傾斜非極大值抑制得到檢測結果。

本文的貢獻如下：

我們介紹了一種用於檢測任意方向場景文本的新框架（圖2）。它基於Faster R-CNN[1]。RPN用於提出文本區域、Fast R-CNN模型[23]修改爲文本區域分類、細化和傾斜框預測。
將面向任意方向的文本檢測問題描述爲一個多任務問題。該方法的核心是預測由RPN提出的每一個生成建議的文本分數、水平框和傾斜最小區域框。
爲了最大限度地利用文本特徵，我們爲每個RPN提議區域做了幾個不同集合大小 (7×7，11×3，3×11) 的ROI Poolings。然後，將這些特徵合併以用於進一步的檢測。
我們對Faster R-CNN的改進還包括增加一個較小的錨點來檢測小場景文本，並使用傾斜的非極大值抑制對檢測候選框進行後處理，以獲得最終結果。

創新點：可以看到 R2CNN 在 Faster R-CNN 的基礎上，有一個 1 類創新點：傾斜最小區域框（及配套的傾斜NMS）
兩個 3 類創新點：ROI Poolng層從 7×7 更改爲 7×7，11×3，3×11；增加一個較小的錨點（4,8,16,32）。

圖2 R2-CNN框架：對於CNN的特徵映射，RPN用於提出包圍任意麪向文本的軸平行框.對於RPN生成的每個框，執行了三個不同池大小的ROI Poolings，並將集合特徵組合起來，用於預測文本分數、軸平行框(vx、vy、vw、vh)和傾斜最小面積框(ux1，uy1，ux2，uy2，uh)然後對傾斜框進行傾斜非極大值抑制，得到最終結果。

2 相關工作

       傳統的場景文本檢測方法包括基於滑動窗口的方法和基於連接部件(CCs)的方法[2,3,4,6,10,13,17,18,19,20]。基於滑動窗口的方法是在圖像中依次移動一個多尺度窗口，然後將候選字符分爲字符和非字符來檢測候選字符。基於CCs的方法是基於CCs生成候選字符。特別是基於最大穩定極值區域(MSER)的方法在ICDAR 2015[21]和ICDAR 2013[22]比賽中取得了良好的成績。這些傳統的方法採用自底向上的策略，通常需要幾個步驟來檢測文本(如字符檢測、文本行構建和文本行分類)。
       一般目標檢測是近年來的一個研究熱點。基於深度學習的技術在很大程度上促進了對象檢測。一種對象檢測器是基於區域建議的目標檢測方法，如R-CNN [24]，SPPnet [25]， Fast R-CNN [23]， Faster R-CNN [1]， R-FCN[26]。另一類對象檢測器不依賴於區域建議，直接估計候選對象，如SSD[27]和YOLO[28]。我們的方法是基於Faster R-CNN架構。在Faster R-CNN中，提出了一種區域建議網絡(RPN)，它可以直接從卷積特徵圖中生成高質量的目標建議。然後利用Fast R-CNN模型[23]對RPN生成的方案進行細化和分類。由於場景文本具有方向性，與一般對象不同，一般對象檢測方法不能直接用於場景文本檢測。
       基於深度學習的場景文本檢測方法[7、8、9、12、15、16、31、32、33、34] 性能優於傳統方法。文本框是一種端到端的快速場景文本檢測器，具有單一的深度神經網絡[8]。DeepText通過Inception-RPN生成詞域建議，然後使用文本檢測網絡[7]對每個詞域建議進行評分和細化。全卷積迴歸網絡(FCRN)利用合成圖像訓練場景文本檢測模型[12]。但是，這些方法的目的是生成軸向平行的檢測框，而不是解決文本定向問題。Connectionist Text Proposal Network (CTPN)檢測固定寬度的垂直框，使用BLSTM捕捉序列信息，然後將垂直框連接起來，得到最終的檢測框[9]。它在檢測水平文本時性能較好，但不適用於高傾斜文本。有一種基於全卷積網絡(FCN)的多目標場景文本檢測方法[16]。該方法需要三個步驟: FCN檢測文本塊、基於MSER的多方向文本行候選生成和文本行候選分類。之後提出了旋轉區域建議網絡(RRPN)來檢測任意方向的場景文本[15]。它基於Faster R-CNN[1]。其對RPN進行了改進，利用文本傾斜角信息生成傾斜建議，並在傾斜建議的基礎上進行分類和迴歸。提出了分段鏈接[31]算法，通過檢測分段和鏈接來檢測有向文本。它在任意長度的文本行上工作得很好。EAST[32]用於自然場景中快速準確的文本檢測。DMPNet[33]用於檢測四邊形較緊的文本。提出深度直接回歸[34]算法用於解決多目標場景文本檢測問題。
       我們的目標是檢測任意方向的場景文本。與RRPN[15]類似，我們的網絡也基於Faster R-CNN[1]，但是我們使用了不同的策略，而不是生成傾斜建議。我們認爲RPN具有生成文本候選體的能力，並根據RPN提出的文本候選體來預測方向信息。

3 採用的方法

在本節中，我們介紹了我們的方法來檢測任意方向的場景文本。圖2顯示了提議的旋轉區域CNN(R2CNN)的架構。首先給出瞭如何形式化的任意方向文本檢測問題，然後介紹了 R2CNN 的細節。之後描述了我們的訓練對象。

3.1 問題定義

在ICDAR 2015比賽[21]中，附帶場景文本檢測的ground truth以順時針方向四個點(x1,y1,x2,y2,x3,y3,x4,y4)表示，如圖3(a)所示。標籤在word級別。這四個點構成一個四邊形，可能不是矩形。雖然由於視角的扭曲，場景文本可以被不規則的四邊形更加緊密地包圍，但是可以粗略地被有方向的傾斜矩形包圍(圖3(b))。當我們認爲一個傾斜矩形可以覆蓋大部分文本區域時，我們將任意方向的場景文本檢測任務近似爲檢測一個傾斜的最小面積矩形。在本文的其餘部分，當我們提到邊界框時，它指的是一個矩形框。

圖3 面向任意目標的場景文本檢測：（a）ICDAR 2015按順時針方向以四點形式標記附帶場景文本；（b）傾斜最小面積矩形在我們的方法中被用作檢測目標；（c）傾斜矩形的另一個示例

雖然表示傾斜矩形的直接方法是用角度表示其方向，但由於角度目標在某些特殊點上不穩定，我們沒有采用這種策略。例如，一個旋轉角度爲90°的矩形與旋轉角度爲 -90°的矩形非常相似，但是它們的角度卻有很大的不同。這使得網絡很難學會檢測垂直文本。我們沒有使用角度來表示方向信息，而是使用前兩點的順時針座標和包圍框的高度來表示傾斜矩形(x1,y1,x2,y2,h)。我們假設第一個點總是表示場景文本左上角的點。圖3(b)和圖3(c )顯示了兩個示例。(x1,y1)爲第一點座標(實心紅點)，(x2,y2)爲第二點座標(順時針方向)，h爲傾斜最小面積矩形的高度。

3.2 旋轉區域CNN（R2CNN）

3.2.1 概述

我們採用了流行的兩階段目標檢測策略，包括區域建議和區域分類。旋轉區域CNN (R2CNN)是基於Faster R-CNN[1]。圖2顯示了R2CNN的體系結構。1.RPN首先用於生成文本區域提案，這些提案是水平的邊界框，包圍着面向任意方向的文本(圖1(b))。2.然後針對每個proposal，對卷積特徵圖進行不同池大小的ROI Poolings(7×7,11×3,3×11)，3.並將池內的特徵串聯起來，進行進一步的分類和迴歸。使用兩個全連接層來預測文本/非文本得分、軸向平行的框和傾斜的最小區域框(圖1©)。4.然後對傾斜框進行傾斜非極大值抑制處理，得到檢測結果(圖1(d))。

3.2.2 用於提議水平框的RPN

       我們使用RPN生成包圍任意定向文本的水平框。這是合理的，因爲水平框中的文本屬於以下情況之一：a)文本在水平方向;b)文本在垂直方向;c)文本在軸平行框的對角線方向上。如圖1（b）所示，RPN能夠以面向任意文本的水平框的形式生成文本區域。
       與一般對象相比，小場景文本較多。我們通過在RPN中使用更小的錨標來支持這一點。在Faster R-CNN[1]中，原始錨點尺度爲(8,16,32)，我們研究了兩種策略: a)將錨尺度更改爲較小的尺寸，使用(4,8,16); b)添加新的錨點，即用(4,8,16,32)。實驗證明，採用較小的錨點對場景文本檢測有一定的幫助。
       我們保持 RPN 的其他設置與 Faster R-CNN[1] 相同，包括錨的形狀比例、正樣本和負樣本的定義等。

這裏的R2CNN採用（4,8,16,32）作爲錨點框的尺度。

3.2.3 不同池化尺寸的ROI Poolings

Faster R-CNN框架是在 feature map 上進行ROI Pooling，每個RPN提案的池大小爲7×7。由於一些文本的寬度遠大於高度，我們嘗試使用三種不同大小的ROI Poolings來捕捉更多的文本特徵。合併池中的特性以便進一步檢測。具體來說，我們添加了兩個池大小:11×3和3×11。池大小3×11的目的是捕捉更多的水平特徵，並幫助檢測寬度遠遠大於高度的水平文本。池大小11×3被認爲是捕捉更多的垂直特徵，並有助於垂直文本檢測的高度遠遠大於寬度。

3.2.4 文本/非文本分數、水平框和傾斜最小面積框的迴歸

在我們的方法中，在RPN之後，我們將RPN生成的提案分類爲文本或非文本（目標/非目標），並對包含任意文本朝向和預測傾斜邊界框的水平邊界框進行細化。每個傾斜的框都與一個水平框相關聯(圖1©和圖4(a))。雖然我們的檢測目標是傾斜邊界框，但是我們認爲增加額外的約束(水平框)可以提高性能。我們的評估也證實了這個想法的有效性。

爲什麼增加這個約束會提高性能？？？更好的檢測傾斜框？

3.2.5 傾斜非極大值抑制

非極大值抑制(NMS)是當前目標檢測方法中廣泛應用的一種後處理檢測方法。當我們同時估計水平包圍框和傾斜包圍框時，我們可以在水平包圍框上執行普通的NMS，或者在傾斜包圍框上執行傾斜的NMS。在傾斜的NMS中，將傳統的交併比(IoU)算法修改爲兩個傾斜邊界框之間的IoU算法。採用[15]中IoU的計算方法。

圖4. 傾斜non-maximum抑制： (a)候選水平排列方框和傾斜（關聯）方框; (b)基於正常NMS對水平方框的檢測結果(綠色方框爲正確檢測，紅色虛線方框爲未檢測到的方框); ©基於傾斜NMS的傾斜方框檢測結果; (d)兩個水平框的例子;(e)兩個斜框的例子。

圖4示出了在執行兩種NMS之後的檢測結果。圖4(a)示出了每個水平邊界框與傾斜相關聯的預測候選框；圖4(b)顯示了正常NMS對水平框的影響，圖4©顯示了傾斜NMS對傾斜框的影響。如圖4(b)所示，文本在水平框上的正常NMS下，未檢測到紅色虛線框.圖4(d)和圖4(e)顯示了傾斜NMS更適合傾斜場景文本檢測的原因。我們可以看到，對於相鄰的傾斜文本，普通的NMS可能會遺漏一些文本，因爲水平框之間的IoU可以很高(圖4(d))，但是傾斜的NMS不會遺漏文本，因爲傾斜的IoU值很低(圖4(e))。

NMS的詳細解釋見：NMS（非極大值抑制）

3.3 訓練目標（多任務損失值）

RPN的訓練損失與Faster R-CNN[1]相同。在本節中，我們只介紹R2CNN對RPN生成的每個水平邊框的損失函數。
我們在每個提議框上定義的損失函數是文本/非文本分類損失和邊框迴歸損失的總和。邊框迴歸損失由兩部分組成:包圍任意方向文本的水平邊框損失和傾斜最小面積邊框損失。每個提議框的多任務損失函數定義爲:

       λ1和λ2是平衡控制三項之間的權值參數。邊框迴歸只對文本執行操作，t是類標籤的指示器；文本標記爲1（t=1），背景標記爲0（t=0），參數p=（p0,p1）爲softmax函數計算的文本和背景類別之間的概率；Lcls（p，t）=-log pt是真實類t的log損失值。
       v=（vx，vy，vw，vh）是真實軸平行邊框迴歸目標的一個元組，包括中心點的座標、它的寬度和高度；v*=（vx*，vy*，vw*，vh*）是文本標籤的預測元組。u=（ux1，uy1，ux2，uy2，uh）是真實傾斜邊框迴歸目標的一個元組，包括前兩個點的座標及其高度。u*=（ux1*，uy1*，ux2*，uy2*，uh*）是文本標籤的預測元組。
       我們使用[24]中給出的v和v*，即指定尺度不變的變換和log-space（log金字塔）相比於對象建議框的的高度/寬度變化。對於傾斜邊框，參數組（ux1，uy1），（ux2，uy2），（ux1*，uy1*）和（ux2*，uy2*）與（vx，vy）相同，參數組uh和uh與參數組vh和vh相同。
       用（w，w*）標識（vi，vi*）或（ui，ui*），則Lreg（w，w*）定義如下：

4 實驗

4.1 實施細節

4.1.1訓練集

       我們的訓練數據集包括來自ICDAR 2015訓練數據集[21]和2000聚焦場景文本圖像的1000個附帶場景文本圖像。我們收集到的圖像中的場景文本是清晰的，與2015年ICDAR中模糊的文本完全不同。雖然我們經過實驗表明，額外採集的圖像並沒有提高ICDAR 2015的性能，但我們仍然包括在訓練中使我們的模型對不同類型的場景文本具有更強的魯棒性。由於ICDAR 2015培訓數據集包含難以檢測到的“###”標記的困難文本，因此我們只能使用這些可讀文本進行訓練。此外，我們使用由多個字符組成的場景文本進行訓練。
       爲了支持任意方向的場景文本檢測，我們通過旋轉圖像來擴充ICDAR 2015訓練數據集和我們自己的數據。我們將圖像旋轉如下角度(-90、-75、-60、-45、-30、-15、15、30、45、60、75、90)。因此，經過數據擴充，我們的訓練數據包含39000張圖像。
       ICDAR 2015文本採用四邊形的四個順時針點座標標註在word水平。由於我們將附帶文本檢測問題簡化爲3.1節中介紹的檢測傾斜矩形的問題，我們通過計算最小面積矩形，從四邊形中生成ground truth傾斜邊框(矩形數據)。然後，我們計算最小水平包圍文本的邊界框，將其作爲ground truth水平框。對我們收集的圖像進行類似的處理，生成ground boxes真實數據。

4.1.2 訓練

我們的網絡用經過ImageNet分類[29]預訓練的VGG16模型初始化。我們使用端到端訓練策略。所有模型均經過20×104次迭代訓練。學習率從10 ^- 3開始，經過5×104、10×104和15×104每次迭代都乘以110。權重衰減爲0.0005，動量爲0.9。所有實驗均採用單一規模訓練。圖像的最短邊設置爲720，而最長邊設置爲1280。我們選擇這個圖像尺寸是因爲ICDAR 2015[21]中的訓練和測試圖像的尺寸(寬度:1280，高度:720)。

4.2 性能

我們在ICDAR 2015[21]和ICDAR 2013[22]上對我們的方法進行了評價。該評估遵循ICDAR的魯棒閱讀比賽指標的形式，以精度，召回率和F-measure。通過將檢測結果提交到競賽網站，並在網上獲得評價結果，得到結果。

A.ICDAR 2015

本節介紹我們在ICDAR2015[21]上的表現。ICDAR 2015競賽測試數據集包含500幅圖像，其中包含具有任意方向的附帶場景文本。我們方法可以達到召回率爲79.68%，精確度爲85.62%，F-measure爲82.54%。我們做了幾個實驗來驗證我們設計的有效性。表1總結了我們的模型在不同設置下的結果。我們將比較以下模型:Faster R-CNN[1]、R2CNN -1、R2CNN -2、R2CNN -3、R2CNN -4和R2CNN -5。我們主要關注評價的是水平邊框迴歸(𝜆1)和傾斜邊框迴歸(𝜆2) 的影響，錨的尺度和NMS方式（傾斜與否）的影響，和ROI Poolings不同池大小的影響。所有這些模型都是在上一節介紹的相同數據集中訓練的。

水平框和傾斜框
       Faster R-CNN軸平行邊框迴歸設置了𝜆1 = 1和𝜆2= 0。不同於Faster RCNN, R2CNN-1傾斜邊框迴歸設置(𝜆1 = 0和𝜆2 = 1),這將導致大約6%的性能提升速度(F-measure: 62.40%比56.63%)。原因是Faster R-CNN的輸出是水平方框，忽略了方向信息。R2CNN-2水平框迴歸將文本和斜框(𝜆1 = 1和𝜆2 = 1)導致另一個6%的性能提升 (F-measure: 68.49%比62.40%)。這意味着學習附加的水平方框可以幫助檢測傾斜的方框。
錨的尺度
       R2CNN-3和R2CNN-4是爲了評估錨尺度對場景文本檢測的影響而設計的。R2CNN-2採用了原始尺度(8,16,32)，R2CNN-3採用了較小的錨尺度(4,8,16)， R2CNN-4在錨尺度上增加一個較小的錨尺度，錨尺度變爲(4,8,16,32)，在RPN中生成12個錨。結果表明，在單尺度試驗條件下，R2CNN-3和R2CNN-4性能相近(F-measure: 72.94% vs. 72.93%)，但均優於R2CNN-2(F-measure: 68.49%)。這說明小錨點可以提高場景文本檢測性能。
在多尺度試驗中，R2CNN-4優於R2CNN-3 (F-measure: 79.74% vs. 78.73%)。這是因爲在多尺度測試下，場景文本在圖像金字塔中可以有更多的尺度，而R2CNN-4具有更多的錨尺度，可以比R2CNN-3更好地檢測各種大小的場景文本。
單一池化大小和多池化大小
       R2CNN-5用於評估多個池大小的影響。如表1所示，在三種混合尺寸(7×7,11×3,3×11)下，R2CNN-5優於單一尺寸(7×7)下的R2CNN-4 (F-measure: 75.34% vs.74.36%，多尺度試驗和傾斜NMS下爲82.54% vs. 81.8%)。這證實了在R2CNN中使用更多的特徵有助於場景文本檢測。
水平框上的普通NMS與傾斜框上的傾斜NMS
       由於我們對軸平行邊框和傾斜最小面積邊框進行了迴歸，並且每個軸平行邊框都與一個傾斜框相關聯，因此我們比較了常規NMS在軸平行邊框上的性能以及傾斜NMS在傾斜框上的性能。我們可以看到，無論是單次測試還是多尺度測試，R2CNN -3、R2CNN -4和R2CNN -5傾斜型NMS的性能均優於普通NMS。
測試時間
       表1中的測試次數是在Tesla K80 GPU上進行測試時得到的。在單尺度測試下，與Faster R-CNN基準相比，我們的方法只增加了很少的檢測時間。
與當前最先進的方法比較
       表2爲R2CNN與ICDAR 2015[21]上的最新方法的結果對比。這裏R2CNN指的是傾斜NMS的R2CNN -5。結果表明，該方法的召回率爲79.68%，精確度爲85.62%，F-measure爲82.54%。

由於我們的方法可以被認爲是傾斜方框是基於水平方框得到的，所以它可以很容易地適應其他架構，比如SSD[27]和YOLO[28]。圖5展示了我們的R2CNN在ICDAR 2015上的一些檢測結果。我們可以看到，我們的方法可以檢測具有不同方向的場景文本。

B. ICDAR 2013

       爲了評價我們的方法的適應性，我們在ICDAR 2013[22]上進行了實驗。ICDAR 2013測試數據集由233幅聚焦場景文本圖像組成。圖像中的文本是水平的。由於我們可以估計水平框和傾斜框，我們使用水平框作爲ICDAR 2013的輸出。
       我們對ICDAR 2015最後一部分訓練的Faster R-CNN模型和R2CNN-5模型進行了實驗。表3顯示了我們的結果和最新的結果。我們的方法可以達到F-measure 87.73%的結果。由於我們使用的訓練數據不包含單個字符，但是在ICDAR 2013中應該檢測單個字符，所以我們認爲我們的方法可以在使用單個字符訓練我們的模型時取得更好的效果。
       爲了將我們的方法與Faster R-CNN基準進行比較，我們還進行了單一尺度測試，其中圖像的短邊設置爲720像素。在表3中，Faster R-CNN和R2CNN-720都採用了這個測試量表。結果是R2CNN-720比Faster R-CNN基準好得多(F-measure: 83.16% vs. 78.45%)。這意味着我們的設計對於水平文本檢測也很有用。

圖6顯示了ICDAR 2013的一些檢測結果。我們可以看到R2CNN可以很好地檢測水平聚焦的場景文本。圖中缺少的文本是一個字符。

所以R2CNN算法最後既有常規的水平預測框輸出，也有傾斜框輸出，這兩種框都是基於RPN網絡輸出的ROI得到的，雖然傾斜框支路也能預測水平框，但是作者認爲第二個支路的存在對最後結果幫助較大。