EAST: An Efficient and Accurate Scene Text Detector

EAST：一種高效準確的場景文本檢測器

Abstract

以往的場景文本檢測方法已經在各種基準測試中取得了良好的性能。然而，即使配備了深度神經網絡模型，它們在處理具有挑戰性的場景時通常也達不到要求，因爲整體性能是由管道中多個階段和組件的相互作用決定的。在這項工作中，我們提出了一種簡單而強大的流水線，在自然場景中產生快速而準確的文本檢測。該管道使用單個神經網絡直接預測全圖像中任意方向和四邊形形狀的單詞或文本行，從而消除了不必要的中間步驟(例如，候選集合和單詞分割)。我們流水線的簡單性使我們可以集中精力設計損耗函數和神經網絡結構。在ICDAR 2015、Coco-Text和MSRA-TD500等標準數據集上的實驗表明，該算法在準確率和效率上都明顯優於現有的方法。在ICDAR2015數據集上，該算法在分辨率爲720p、分辨率爲13.2fps時的F-Score爲0.7820。

1 Introduction

近年來，提取和理解包含在自然場景中的文本信息變得越來越重要和流行，這從ICDAR系列競賽[30，16，15]的空前大量的參與者和NIST啓動的2016特質評估[1]中可見一斑。

圖1.ICDAR 2015[15]文本本地化挑戰的性能與速度。可以看出，我們的算法在準確率上大大超過了競爭對手，同時運行得非常快。所使用的硬件規格列在選項卡6中。

文本檢測作爲後續處理的前提，在文本信息提取和理解的整個過程中起着至關重要的作用。以前的文本檢測方法[2，33，12，7，48]已經在該領域的各種基準上取得了良好的性能。文本檢測的核心是設計區分文本和背景的特徵。

傳統上，功能是手動設計的[5、25、40、10、26、45]來捕獲場景文本的屬性，而在基於深度學習的方法中[3、13、11、12、7、48]直接使用有效的功能從訓練數據中學到。

然而，現有的方法，無論是基於傳統神經網絡的還是基於深度神經網絡的，大多由多個階段和組件組成，這些階段和組件可能是次優的和耗時的。因此，這些方法的精度和效率還遠遠不能令人滿意。

在本文中，我們提出了一種快速準確的場景文本檢測流水線，該流水線只有兩個階段。該管道使用完全卷積網絡(FCN)模型，該模型直接產生單詞或文本行級預測，不包括冗餘和緩慢的中間步驟。生成的文本預測(可以是旋轉矩形或四邊形)被髮送到非最大抑制以產生最終結果。通過在標準基準上的定性和定量實驗表明，與現有方法相比，該算法在運行速度和性能上都有明顯的提高。

具體來說，所提出的算法在ICDAR 2015 [15]上達到0.7820的F值（在多尺度下進行測試時爲0.8072），在MSRA-TD500 [40]上達到0.7608的F值，而在COCO-Text [36]上達到0.3945的F值，先進的性能算法，平均所需時間更少（對於性能最佳的Titan-X GPU，在720p分辨率下爲13.2fps，對於速度最快的模型爲16.8fps）。

圖2.Jaderberg等人提出的水平單詞檢測和識別流水線，比較了幾種近期關於場景文本檢測的流水線：(A)水平單詞檢測和識別流水線。12張等人提出的多向文本檢測流水線。48姚等人提出的多向文本檢測流水線。41使用CTPN的水平文本檢測，由Tian等人提出。[34]；(E)我們的管道省去了大多數中間步驟，只由兩個階段組成，比以前的解決方案簡單得多。

本文的工作主要有三個方面的貢獻：·提出了一種場景文本檢測方法，該方法分爲兩個階段：完全卷積網絡階段和網管系統融合階段。FCN直接生成文本區域，不包括冗餘和耗時的中間步驟。·該管道可以靈活地產生字級或行級預測，其幾何形狀可以是旋轉的方框或四邊形，具體取決於具體應用。·該算法在準確率和速度上都明顯優於目前最先進的方法。

2 Related Work

場景文本檢測與識別一直是計算機視覺領域的研究熱點。調查了許多鼓舞人心的想法和有效的方法[5，25，26，24，27，37，11，12，7，41，42，31]。全面回顧和詳細分析載於調查文件[50、35、43]。本節將重點介紹與提出的算法最相關的工作。

傳統方法依賴於手動設計的特徵。基於筆畫寬度變換(SWT)[5]和最大穩定極值區域(MSER)[25，26]的方法通常通過邊緣檢測或極值區域提取來尋找候選字符。張某等人。[47]利用文本的局部對稱性，設計各種特徵進行文本區域檢測。FASText[2]是一個快速文本檢測系統，它對著名的用於筆劃提取的快速關鍵點檢測器進行了改編和改進。然而，這些方法在精度和適應性方面都落後於基於深度神經網絡的方法，特別是在處理低分辨率和幾何失真等具有挑戰性的場景時。

近年來，場景文本檢測領域進入了一個新的時代，基於深度神經網絡的算法[11，13，48，7]逐漸成爲主流。黃等人。[11]首先使用MSER發現候選對象，然後使用深卷積網絡作爲強分類器來剔除誤報。Jaderberg等人的方法。[13]以滑動窗口方式掃描圖像，並使用卷積神經網絡模型生成每個尺度的密集熱圖。稍後，賈德貝吉特·艾爾。[12]使用CNN和ACF來尋找候選單詞，並通過迴歸進一步提煉它們。田等人。[34]開發了垂直錨點，構建了CNN-RNN聯合模型來檢測水平文本行。與這些方法不同的是，張等人提出了一種新的方法。[48]提出利用FCN[23]生成熱圖，並使用分量投影進行方位估計。這些方法在標準基準上取得了優異的性能。然而，如圖2(a-d)所示，它們主要由多個階段和組件組成，例如通過後過濾去除假陽性、候選集合、行形成和單詞分割。大量的級和組件可能需要窮盡的調整，從而導致次優性能，並增加整個流水線的處理時間。

在本文中，我們設計了一個基於FCN的深層管道，直接針對文本檢測的最終目標：單詞或文本行級別檢測。如圖2（e）所示，該模型放棄了不必要的中間組件和步驟，並允許進行端到端的訓練和優化。配備單個輕量級神經網絡的合成系統在性能和速度上都明顯優於其他所有方法。

3 Methodology

該算法的關鍵部分是神經網絡模型，該模型經過訓練可以直接從完整圖像中預測文本實例的存在及其幾何形狀。該模型是適用於文本檢測的全卷積神經網絡，可輸出單詞或文本行的每像素密集預測。這消除了中間步驟，例如候選提案，文本區域形成和單詞劃分。後處理步驟僅包括對預測的幾何形狀進行閾值處理和NMS。該檢測器被稱爲EAST，因爲它是一種高效且準確的場景文本檢測管道。

3.1. Pipeline

圖2(E)說明了我們的流水線的總體情況。該算法遵循DenseBox[9]的總體設計，將一幅圖像送入FCN，並生成多個通道的像素級文本分數圖和幾何圖形。

預測通道之一是像素值在[0，1]範圍內的分數貼圖。其餘的通道表示從每個像素的視圖中包圍單詞的幾何圖形。該分數表示在同一位置預測的幾何形狀的置信度。

3.2. Network Design

在設計用於文本檢測的神經網絡時，必須考慮幾個因素。由於如圖5所示的單詞區域的大小差別很大，確定大單詞的存在將需要神經網絡的後期特徵，而預測包圍小單詞區域的準確幾何需要早期的低層信息。因此，網絡必須使用不同級別的功能來滿足這些要求。HyperNet[19]在特徵地圖上滿足這些條件，但是在大型特徵地圖上合併大量通道會顯著增加後期的計算開銷。

爲了彌補這一點，我們採用了U形[29]中的思想，在保持上採樣分支較小的情況下，逐步合併特徵地圖。我們最終得到的網絡既可以利用不同級別的功能，又可以保持較小的計算成本。

圖3描述了該模型的原理圖。該模型可以分解爲三個部分：特徵提取器莖、特徵合併分支和輸出層。

莖可以是在ImageNet[4]數據集上預先訓練的卷積網絡，具有交錯的卷積和池層。從詞幹中提取了4層特徵圖，記爲FI，其大小分別爲輸入圖像的1 32、1 16、1 8和1 4。在圖3中，描述了PV ANET[17]。在我們的實驗中，我們還採用了著名的VGG16[32]模型，其中提取了Pooling-2到Pooling-5之後的特徵映射。

在特徵合併分支中，我們逐步合併它們：
$\begin{array}{l}{g_{i}=\left\{\begin{array}{ll}{\operatorname{unpool}\left(h_{i}\right)} & {\text { if } i \leq 3} \\{\operatorname{conv}_{383}\left(h_{i}\right)} & {\text { if } i=4} \end{array}\right.} \\{h_{i}=\left\{\begin{array}{ll}{f_{i}} & {\text { if } i=1} \\{\operatorname{conv}_{3 \alpha_{3}}\left(\operatorname{conv}_{1 \times 4}\left(\left[g_{i-1} ; f_{i}\right]\right)\right)} & {\text { otherwise }}\end{array}\right.}\end{array}$
其中，gii是合併基準，hii是合併後的要素地圖，操作符[·；·]表示沿通道軸的串聯。在每個合併階段，來自上一階段的特徵地圖首先被饋送到解合層以使其大小加倍，然後與當前特徵地圖拼接。接下來，一個卷積1×1的瓶頸[8]減少了通道數並減少了計算，然後是一個卷積3×3，它融合信息，最終產生該合併階段的輸出。在最後一個合併階段之後，一個3×3層生成合並分支的最終特徵圖，並將其饋送到輸出層。

每個卷積的輸出通道數如圖3所示。我們保持分支中用於卷積的通道數很小，這隻增加了莖上的一小部分計算開銷，使網絡的計算效率更高。最終輸出層包含多個con1×1操作，將32個通道的要素圖投影到1個通道的分數圖F和一個多通道幾何圖FG中。幾何圖形輸出可以是RBOX或四邊形之一，在選項卡1中彙總。

對於RBOX，其幾何形狀由4個通道的軸對齊邊界框（AABB）R和1個通道旋轉角θ表示。 R的公式與[9]中的公式相同，其中4個通道分別代表從像素位置到矩形的頂部，右側，底部，左側邊界的4個距離。

圖4.標籤生成過程：(A)文本四邊形(黃色虛線)和縮小的四邊形(綠色實心)；(B)文本分數圖；©RBOX幾何圖生成；(D)每個像素到矩形邊界的4個通道的距離；(E)旋轉角度。

對於四邊形Q，我們使用8個數字來表示從四邊形的四個角點{pi|i∈{1，2，3，4}}到像素位置的座標偏移。由於每個距離偏移包含兩個數字(∆xi、∆yi)，因此幾何體輸出包含8個通道。

3.3. Label Generation

3.3.1 Score Map Generation for Quadrangle

在不喪失一般性的情況下，我們只考慮幾何是四邊形的情況。記分圖上四邊形的正區域被設計成原始區域的大致縮小版本，如圖4(A)所示。

對於四邊形q={pi|i∈{1，2，3，4}}，其中pi={xi，yi}是四邊形上順時針順序的頂點。爲了縮小Q，我們首先計算每個頂點piA的參考長度ria
$\begin{aligned}r_{i}=\min (& \mathrm{D}\left(p_{i}, p_{(i \bmod 4)+1}\right) \\&\left.\left.\mathrm{D}\left(p_{i}, p_{((i+2)} \bmod 4\right)+1\right)\right)\end{aligned}$
其中D(pi，pj)是pi和pj之間的L2距離。

我們首先收縮四邊形的兩條較長的邊，然後收縮兩條較短的邊。對於每對兩條相對的邊，我們通過比較它們的平均長度來確定“較長”的一對。對於每條邊Hpi，p(Imod 4)+1i，我們分別將其兩個端點沿邊向內移動0.3r和0.3r(Imod 4)+1來收縮它。

3.3.2 Geometry Map Generation

如SEC中所述。3.2，幾何體貼圖可以是RBOX或四邊形之一。RBOX的生成過程如圖4(c-e)所示。

對於文本區域以四邊形樣式標註的數據集(例如，ICDAR 2015)，我們首先生成一個旋轉矩形，該矩形覆蓋面積最小的區域。然後，對於每個得分爲正的像素，計算其到文本框4個邊界的距離，並將其放入RBOX地面真實值的4個通道。對於四邊形地面真值，8通道幾何體貼圖中得分爲正的每個像素的值是其從四邊形的4個頂點的座標偏移。

3.4. Loss Functions

損失可以用公式表示爲
$L=L_{\mathrm{s}}+\lambda_{\mathrm{g}} L_{\mathrm{s}}$
其中，LsandLgret分別表示分數圖和幾何體的損失，而λ則權衡兩個損失之間的重要性。在我們的實驗中，我們將λGTO設置爲1。

3.4.1 Loss for Score Map

在大多數最先進的檢測管道中，訓練圖像通過平衡採樣和硬負挖掘進行仔細處理，以解決目標對象分佈不平衡的問題[9，28]。這樣做可能會提高網絡性能。然而，使用這種技術不可避免地引入了一個不可微級、更多的參數來調整和更復雜的流水線，這與我們的設計原則相矛盾。

爲了便於更簡單的訓練過程，我們使用[38]中引入的分類平衡交叉熵，由
$\begin{aligned}L_{s} &=\text { balanced-xent }\left(\hat{\mathbf{Y}}, \mathbf{Y}^{*}\right) \\&=-\beta \mathbf{Y}^{*} \log \hat{\mathbf{Y}}-(1-\beta)\left(1-\mathbf{Y}^{*}\right) \log (1-\hat{\mathbf{Y}})\end{aligned}$
其中ˆY=fsi是分數圖的預測，而Y∗是基本事實。參數β是正樣本和負樣本之間的平衡因子，由
$\beta=1-\frac{\sum_{y^{*} \in Y} \cdot y^{*}}{\left|Y^{*}\right|}$
這種平衡的交叉熵損失最先被姚等人用於文本檢測。[41]作爲分數圖預測的目標函數。我們發現它在實踐中效果很好。

3.4.2 Loss for Geometries

文本檢測面臨的一個挑戰是自然場景圖像中的文本大小千差萬別。直接使用L1或L2損失進行迴歸會將損失偏向更大更長的文本區域。由於我們需要爲大文本區域和小文本區域生成精確的文本幾何預測，因此迴歸損失應該是尺度不變的。因此，我們在RBOX迴歸的AABB部分採用IOU損失，在四元迴歸中採用尺度歸一化平滑L1損失。

RBOX 對於AABB部分，我們採用[46]中的欠條損失，因爲它對不同尺度的對象是不變的。

$L_{\mathrm{AABB}}=-\log \operatorname{IoU}\left(\hat{\mathbf{R}}, \mathbf{R}^{*}\right)=-\log \frac{\left|\hat{\mathbf{R}} \cap \mathbf{R}^{*}\right|}{\left|\hat{\mathbf{R}} \cup \mathbf{R}^{*}\right|}$
其中ˆR表示預測的AABB幾何，而R∗是其對應的地面事實。很容易看到，相交矩形的寬度和高度|ˆR∩R∗|爲
$\begin{array}{l}{w_{\mathbf{i}}=\min \left(\hat{d}_{2}, d_{2}^{*}\right)+\min \left(\hat{d}_{4}, d_{4}^{*}\right)} \\{h_{\mathbf{i}}=\min \left(\hat{d}_{1}, d_{1}^{*}\right)+\min \left(\hat{d}_{3}, d_{3}^{*}\right)}\end{array}$
其中d1、d2、d3和d4分別表示像素到其相應矩形的上、右、下和左邊界的距離。聯合面積由
$\left|\hat{\mathbf{R}} \cup \mathbf{R}^{*}\right|=|\hat{\mathbf{R}}|+\left|\mathbf{R}^{*}\right|-\left|\hat{\mathbf{R}} \cap \mathbf{R}^{*}\right|$
因此，交集/並集面積都可以很容易地計算出來。接下來，旋轉角度的損失計算爲
$L_{\theta}\left(\hat{\theta}, \theta^{*}\right)=1-\cos \left(\hat{\theta}-\theta^{*}\right)$
其中ˆθ是對旋轉角度的預測，θ∗表示地面真實情況。最後，總體幾何損失是AABB損失和角度損失的加權和，由
$L_{8}=L_{\mathrm{AABB}}+\lambda_{\theta} L_{\theta}$
在我們的實驗中，λθ設置爲10。

請注意，我們計算LAAB時不考慮旋轉角度。當角度被完美預測時，這可以被看作是四邊形借條的近似值。儘管在訓練過程中情況並非如此，但它仍然可以對網絡施加正確的梯度，以學習預測ˆR。

Quad我們擴展了[6]中提出的平滑-L1損失，增加了爲字四邊形設計的額外歸一化項，它通常在一個方向上更長。設q的所有座標值都是有序集
$\mathrm{C}_{\mathrm{Q}}=\left\{x_{1}, y_{1}, x_{2}, y_{2}, \dots, x_{4}, y_{4}\right\}$
那麼損失可以寫成
$\begin{aligned}L_{g} &=L_{\mathrm{QUAD}}\left(\hat{\mathbf{Q}}, \mathbf{Q}^{*}\right) \\&=\min _{\tilde{\mathbf{Q}} \in P_{\mathbf{Q}} \cdot} \sum_{c_{i} \in \mathrm{C}_{\mathrm{Q}}} \frac{\mathrm{smoothed}_{L 1}\left(c_{i}-\tilde{c}_{i}\right)}{8 \times N_{\mathrm{Q}^{*}}} \\& \tilde{\varepsilon}_{\mathrm{i}} \in \mathrm{C}_{\mathrm{Q}}\end{aligned}$
其中，歸一化項NQ∗是四邊形的短邊長度，由下式給出

$N_{\mathbf{Q}^{*}}=\min _{i=1}^{4} D\left(p_{i}, p_{(i \bmod 4)+1}\right)$
PQ是Q-∗的所有具有不同頂點排序的等價四邊形的集合。由於公共訓練數據集中的四邊形的註釋不一致，因此需要該排序排列。

3.5. Training

網絡使用ADAM[18]優化器進行端到端的訓練。爲了加快學習速度，我們統一從圖像中抽取512x512個作物樣本，形成24個大小的小批量。亞當的學習速率從1e-3開始，每27300個小批量衰減到十分之一，並在1e-5停止。網絡經過訓練，直到性能停止提高。

3.6. Locality-Aware NMS

爲了形成最終結果，閾值處理後倖存的幾何圖形應該由NMS進行合併。NA？ıve NMS算法在O(N2)中運行，其中n是候選幾何的數量，這是不可接受的，因爲我們面臨着來自密集預測的數以萬計的幾何。

在假設相鄰像素的幾何形狀趨於高度相關的情況下，我們提出了逐行合併幾何形狀的方法，在合併同一行的幾何形狀的同時，將當前遇到的幾何形狀與上次合併的幾何形狀進行迭代合併。這種改進的技術在最佳情況下的運行速度爲O(N)。即使它的最壞情況與NA¨ıve情況相同，只要局部性假設成立，該算法在實踐中也運行得足夠快。算法1總結了該過程。

值得一提的是，在WEIGHTEDMERGE(g，p)中，合併四邊形的座標是用兩個給定四邊形的分數加權平均的。具體地說，如果a=WEIGHTEDMERGE(g，p)，則ai=V(G)gi+V§pi和dV(A)=V(G)+V§，其中ai是a的下標座標之一，V(A)是幾何a的分數。

事實上，有一個細微的區別，那就是我們是在“平均”而不是“選擇”幾何圖形，就像在標準的NMS程序中所做的那樣，作爲一種投票機制，這反過來在輸入視頻時引入了穩定效果。儘管如此，我們仍然採用“網管”這個詞來描述功能。

4 Experiments

爲了與現有方法進行比較，我們在ICDAR2015、COCO-TEXT和MSRA-TD500三個公共基準上進行了定性和定量的實驗。

4.1. Benchmark Datasets

ICDAR 2015用於ICDAR 2015穩健閱讀比賽的挑戰4[15]。共包括1500張圖片，其中1000張用於培訓，其餘用於測試。文本區域由四邊形的4個頂點標註，與本文中的四邊形幾何相對應。我們還通過擬合一個面積最小的旋轉矩形來生成RBOX輸出。這些圖片是由谷歌眼鏡附帶拍攝的。因此，場景中的文本可能是任意方向的，或者受到運動模糊和低分辨率的影響。我們還使用了來自ICDAR 2013的229張訓練圖像。

COCO-TEXT[36]是迄今爲止最大的文本檢測數據集。它重複使用MS-COCO數據集[22]中的圖像。共標註了63，686幅圖像，其中43，686幅圖像被選爲訓練集，其餘20，000幅圖像用於測試。單詞區域以軸對齊邊界框(AABB)的形式進行標註，這是RBOX的特例。對於此數據集，我們將角度θ設置爲零。我們使用與ICDAR 2015相同的數據處理和測試方法。

MSRA-TD500[40]是一個由300個訓練圖像和200個測試圖像組成的數據集。文本區域具有任意方向，並在句子級別進行註釋。與其他數據集不同的是，它同時包含英文和中文文本。文本區域以RBOX格式進行註釋。由於訓練圖像的數量太少，無法學習深層模型，因此我們還利用HUSTTR400數據集[39]中的400幅圖像作爲訓練數據。

4.2. Base Networks

除了COCO-Text以外，所有文本檢測數據集與用於一般對象檢測的數據集相比都相對較小[21，22]，因此，如果所有基準均採用單個網絡，則可能會過度擬合或擬合不足 -配件。我們在所有數據集上試驗了三個具有不同輸出幾何形狀的不同實體的基礎網絡，以評估所提出的框架。這些網絡彙總在表2中。

VGG16[32]被廣泛用作許多任務[28，38]的基礎網絡，以支持後續的特定於任務的微調，包括文本檢測[34，48，49，7]。這種網絡有兩個缺點：(1)。這個網絡的接受範圍很小。在cv53的輸出中的每個像素僅具有196的接收場。(2)。這是一個相當大的網絡。

PV Anet是在[17]中引入的一個輕量級網絡，旨在替代FASTER-RCNN[28]框架中的特徵提取器。由於GPU太小，不能充分利用計算並行性，我們還採用了PVANET2x，使原PVAnet的通道增加了一倍，在運行速度略低於PVAnet的情況下，利用了更多的計算並行性。這在SEC中有詳細說明。4.5.。最後一卷積層輸出的接受場爲809，遠大於VGG16。

模型是在ImageNet數據集[21]上預先訓練的。

4.3. Qualitative Results

圖5描述了使用所提出的算法的幾個檢測示例。它能夠處理各種具有挑戰性的場景，如照明不均勻、分辨率低、方向變化和透視失真。此外，由於NMS過程中的投票機制，所提出的方法在包含各種形式文本實例的視頻上表現出較高的穩定性。

該方法的中間結果如圖6所示。可以看出，訓練後的模型生成了高精度的幾何圖和分數圖，其中很容易形成對不同方向的文本實例的檢測。

4.4. Quantitative Results

如選項卡中所示。3和Tab。4、在ICDAR 2015和COCO-Text上，我們的方法比以前的最先進的方法有很大的優勢。

在ICDAR 2015挑戰4中，當以原始比例輸入圖像時，所提出的方法的F分數達到0.7820。當使用同一網絡在多個規模上進行測試時，我們的方法在F評分上達到0.8072，就絕對值而言，它比最佳方法[41]高出近0.16（0.8072對0.6477）。

與使用VGG16型網絡[34，48，41]的結果相比，該方法在使用四元組輸出時的性能也比以前的工作[41]高0.0924，而在使用RBOX輸出時的性能比前人的工作要好0.116。同時，這些網絡非常高效，將在4.5節中說明。

在COCO-TEXT中，所提出的算法的所有三個設置都比以前表現最好的算法有更高的精確度[41]。具體地說，Fcore比[41]提高了0.0614，而Recall提高了0.053，考慮到COCO-Text是迄今爲止最大和最具挑戰性的基準，這證實了所提算法的優勢。請注意，我們還包含了[36]的結果作爲參考，但這些結果實際上不是有效的基線，因爲方法(A、B和C)用於數據註釋。

對已有方法的改進證明，一條簡單的文本檢測流水線，直接針對最終目標，消除冗餘過程，可以擊敗複雜的流水線，即使是與大型神經網絡模型集成的流水線也是如此。

如表5所示，在MSRA-TD500上，本方法的三種設置都取得了很好的效果。表現最好的(OURS+PVANET2x)的F-分數略高於[41]。與張等人的方法進行了比較。[48]，在之前發佈的最先進的系統中，表現最好的(OURS+PVANET2x)在F-SCORE上提高了0.0208，在精度上提高了0.0428。

值得注意的是，在MSRA-TD500上，採用VGG16的算法比使用PVANET和PVANET2x的算法性能要差得多(0.7023比0.7445和0.7608)，這主要是因爲VGG16的有效接受域小於PVANET和PVANET2x，而MSRA-TD500的評估協議要求文本檢測算法輸出行級而不是詞級預測。

此外，我們還在ICDAR 2013基準上評估了我們的+PVANET2x。它在召回率、查準率和F分上分別達到了0.8267、0.9264和0.8737，與以前的最新方法[34]相當，後者在召回率、查準率和F分上分別達到了0.8298、0.9298和0.8769。

4.5. Speed Comparison

Tab中演示了整體速度比較。 6.我們報告的數字是使用性能最佳的網絡，以原始分辨率（1280x720）運行ICDAR 2015數據集中的500張測試圖像的平均值。這些實驗是在服務器上使用具有Maxwell架構的單個NVIDIA Titan X圖形卡和Intel E5-2670 v3 @ 2.30GHz CPU進行的。對於建議的方法，後處理包括閾值處理和NMS，而其他處理則應參考其原始論文。

雖然該方法的性能明顯優於目前最先進的方法，但由於其流水線簡單高效，計算成本非常低。從選項卡中可以觀察到。6，我們方法的最快設置以16.8 FPS的速度運行，而最慢的設置以6.52 FPS的速度運行。即使是性能最好的機型OURS+PVANET2x也能以13.2 FPS的速度運行。這證實了我們的方法是最有效的文本檢測器之一，在基準測試上實現了最先進的性能。

4.6. Limitations

檢測器可以處理的最大文本實例大小與網絡的接受範圍成正比。這限制了網絡預測更長文本區域的能力，例如貫穿圖像的文本行。

此外，該算法可能會錯過或給出對垂直文本實例的不精確預測，因爲它們只佔用ICDAR 2015訓練集中的一小部分文本區域。

5 Conclusion and Future Work

我們已經提出了一個場景文本檢測器，它使用單個神經網絡直接從完整圖像中產生詞級或行級預測。通過結合適當的損失函數，檢測器可以根據特定的應用預測文本區域的旋轉矩形或四邊形。

在標準基準上的實驗表明，該算法在準確率和效率上都明顯優於以往的方法。未來研究的可能方向包括：(1)調整幾何公式以允許直接檢測彎曲文本；(2)將檢測器與文本識別器集成；(3)將該想法擴展到一般對象檢測。

（四）EAST----2017CVPR論文解讀