EAST(An Efficient and Accurate Scene Text Detector)論文閱讀筆記

論文中作者網絡(e)與其他網絡對比

在這裏插入圖片描述

貢獻

  1. 只包含兩個階段:全卷積網絡(FCN)和非極大值抑制(NMS)。FCN直接產生文本區域,沒有冗餘和耗時的中間步驟。
  2. 可以靈活的生成詞級或者行級的預測,它們的集合形狀可以是旋轉框或者四邊形。
  3. 採用了Locality-Aware NMS來對生成的幾何進行過濾
  4. 所提出的算法在精度和速度方面都有所提高

方法

特徵提取主幹 + 特徵合併分支 + 輸出層部分

1. Pipeline

該模型是一個全卷積的神經網絡,適用於文本檢測,輸出密集的每個像素預測的單詞或文本行。後處理步驟僅包括預測幾何形狀的閾值和NMS。

其中圖像被饋送到FCN,並且生成多個像素級文本得分圖(Score Map)和幾何通道。預測通道中的一個是得分圖,其像素值在[0,1]的範圍內。 其餘通道表示從每個像素的視圖中包圍該單詞的幾何。 分數代表在相同位置預測的幾何形狀的置信度。

兩種幾何形狀(旋轉框RBOX和四邊形QUAD),分別設計了不同的損失函數。使用閾值過濾掉一些幾何,然後NMS,得到最終輸出。

2.Network Design(網絡設計)

特徵融合(結合不同級別的網絡特徵)。爲了降低計算成本沒有采用HyperNet,而是採用了U形網絡的思想。

特徵提取主幹 + 特徵合併分支 + 輸出層部分

  • 特徵能提取主幹:用於提取特徵,採用 PVANet(文末的代碼中使用的是ResNet_v1_50)

  • 特徵合併分支:

    • 在每個合併階段,使用最後一個階段的feature map 進行uppooling(上採樣將原圖像放大2倍)

    • 然後與前一層 feature map 連接 concatenate

    • 接着使用1×1卷積覈減少通道數量並減少計算(卷積核的個數128,64,32)

    • 然後使用3×3卷積核產生該合併階段的輸出(卷積核的個數128,64,32)

      在最後一個合併階段,使用只使用3x3的卷積核產生合併階段最終的feature map,並給輸出層。

  • 輸出層,有若干1×1卷積操作,將32通道的特徵圖投影到 1通道的得分圖FsF_s​ 和 多通道幾何圖FgF_g​中。 幾何輸出可以是RBOX或QUAD。(文末的代碼中只實現了RBOX)

    • RBOX 幾何形狀由4個通道的軸對齊邊界框(AABB)R和1個通道旋轉角θ表示。其中4個通道分別表示從像素位置到矩形的頂部,右側,底部,左部的4個距離。
    • QUAD 使用8個數字來表示從四邊形的四個角頂點{pii{1,4,3,4}}\{p_i|i∈\{1,4,3,4\}\}到像素位置的距離。 每一個距離包含兩個數字(Δxi,Δyi)(Δx_i, Δy_i),因此幾何輸出包含8個通道。

3.Label Generation(標籤生成)

標籤生成流程圖

(a)文本四邊形(黃色虛線)和壓縮四邊形(綠色實線)
(b)文本分數圖(text score map)
(c)RBOX幾何圖生成
(d)每個像素到矩形邊界的4個通道距離
(e)旋轉角度

  1. 分數圖(Score Map)的生成

    • 分數圖上四邊形的正面積設計爲原始面積的縮小版

    • 對於四邊形Q={pii1,2,3,4}Q = \{p_i|i∈{1,2,3,4}\},其中pi={xi,yi}p_i = \{x_i, y_i\}是四邊形上的頂點,以順時針順序排列。 爲了縮小Q,我們首先計算每個頂點pip_i的參考長度rir_i
      ri=min(D(pi,p(imod4)+1),D(pi,p((i+2)mod4)+1)) r_i = min(D(p_i, p_{(i mod 4) + 1}),D(p_i, p_{((i + 2) mod 4) + 1}))
      此處 D(pi,pj)D(p_i, p_j)​pip_i​pjp_j​ 的 L2 距離

      我們首先縮小四邊形的兩個較長邊,然後縮短兩個較短邊。對於每對兩個相對的邊,我們通過比較它們的長度的平均值來確定“更長”的對。 對於每個邊<pi,p(imod4)+1><p_i,p_{(i mod 4)+1}>​,我們通過將其兩個端點沿邊緣向內移動0.3ri0.3r_i​0.3r(imod4)+10.3r_{(i mod 4)+1}​來縮小它。

  2. 幾何圖(Geometry Map)的生成

    對於那些文本區域以QUAD樣式註釋的數據集(例如,ICDAR 2015),首先生成一個旋轉矩形,用最小的面積覆蓋區域。然後對於每個具有正分數的像素,我們計算它到文本框的4個邊界的距離,並將它們放到RBOX ground truth 的 4 個通道中。 對於QUAD ground truth,8通道幾何圖中具有正分數的每個像素的值是其從四邊形的4個頂點的座標偏移。

4. Loss Functions(損失函數)

L=Ls+λgLg L = L_s + \lambda_gL_g

LsL_s​代表分數損失,LgL_g​代表幾何的損失,λs\lambda_s代表兩個損失的重要性​,在論文中,設置爲1

1. Loss for Score Map (LsL_s​)

​ 類平衡交叉熵(class-balanced cross-entropy):用於解決類別不平衡訓練,避免通過 平衡採樣和硬負挖掘 解決目標物體的不平衡分佈,簡化訓練過程

Ls=balancedxent(Y^,Y)=βYlogY^(1β)(1Y)log(1Y^) L_s = balanced-xent(\hat{Y},Y^*) = -\beta{Y^*}log\hat{Y} - (1-\beta)(1-Y^*)log(1-\hat{Y})
這裏 Y^\hat{Y}​ 是score map 的預測值,YY^*​是Ground Truth。參數 β\beta​ 是正樣本和負樣本的平衡因子:
β=1yYyY \beta = 1 - \frac{\sum_{y^*\in Y^*}y^*}{|Y^*|}
2. Loss for Geometries (LgL_g​)

​ 文本在自然場景中的尺寸變化極大。直接使用L1或者L2損失去迴歸文本區域將導致損失偏差朝更大更長.因此論文中採用IoU損失在 RBOX 迴歸的 AABB 部分,尺度歸一化的 smoothed-L1 損失在 QUAD 迴歸,來保證幾何形狀的迴歸損失是尺度不變的

  • RBOX

    交併比損失
    LAABB=logIoU(R^,R)=logR^RR^R L_{AABB} = -log IoU(\hat{R}, R^*) = -log \frac{|\hat{R}\cap R^*|}{|\hat{R}\cup R^*|}
    R^\hat{R} 代表AABB四邊形的預測,RR^*是對應的Ground Truth,R^R|\hat{R}\cap R^*|的寬和高是:
    wi=min(d2^,d2)+min(d4^,d4)hi=min(d1^,d1)+min(d3^,d3) w_i = min(\hat{d_2}, d_2^*) + min(\hat{d_4}, d_4^*)\\ h_i = min(\hat{d_1}, d_1^*) + min(\hat{d_3}, d_3^*)
    d1d_1, d2d_2, d3d_3, d4d_4代表從一個像素到它對應矩形的頂部,右邊,底部,左邊的距離,相交的面積爲:
    R^R=R^+RR^R |\hat{R} \cup R^*| = |\hat{R}| + |R^*| - |\hat{R} \cap R^*|
    接下來,旋轉角的損失計算:
    Lθ(θ^,θ)=1cos(θ^θ) L_\theta (\hat{\theta}, \theta^*) = 1 - cos(\hat{\theta} - \theta^*)
    θ^\hat{\theta}是預測的旋轉角,θ\theta^*是Ground Truth。最後,總體損失爲AABB損失和旋轉角損失的加權和:
    Lg=LAABB+λθLθ L_g = L_{AABB} + \lambda_\theta L_\theta
    論文中λθ\lambda_\theta設置爲10。

  • QUAD

    添加歸一化的 Smoothed-L1
    CQ={x1,y1,x2,y2,...,x4,y4} C_Q = \{x_1, y_1, x_2, y_2, ..., x_4, y_4\}
    損失值:
    Lg=LQUAD(Q^,Q)=minQ~PQciCQci~CQ~smoothedL1(cici~)8×NQ L_g = L_{QUAD} (\hat{Q}, Q^*) = min_{\tilde{Q} \in P_{Q^*}} \sum_{c_i \in C_Q\\ \tilde{c_i} \in C_{\tilde{Q}}} \frac{smoothed_{L1}(c_i - \tilde{c_i})}{8 × N_{Q^*}}
    其中歸一化項NQN_ {Q^*}是四邊形的短邊長度,由下式給出
    NQ=mini=14D(pi,p(imod4)+1) N_{Q^*} = min_{i=1}^4 D(p_i, p_{(i mod 4) + 1})
    PQP_Q是具有不同頂點排序的QQ^*的所有等效四邊形的集合。 由於公共訓練數據集中的四邊形標註不一致,因此需要這種排序排列。

5. Locality-Aware NMS(局部感知NMS)

由於本文產生的幾何體數量加大,使用普通的NMS時間複雜度太高(O(n2)O(n^2)),針對這個,提出了基於行合併幾何體的方法(加權平均)。

假設來自鄰近像素的幾何形狀傾向於高度相關,就逐行合併幾何,並且在同一行中合併幾何形狀時,我們將迭代地合併當前遇到的幾何與最後合併的幾何。 這種改進的技術在最佳場景1中以O(n)O(n)運行。 即使最壞的情況與簡單的情況相同,只要假設成立,算法在實踐中運行得足夠快。

論文中給出的檢測效果圖:

總結

EAST由於感受野不夠大,所以對較長文本行檢測效果不是太好,比較適合短文本行檢測。

CTPN由於LSTM的存在,對長文字的檢測效果比EAST好,但是對於傾斜的文本行檢測效果不太好。

參考文章及代碼

EAST論文:https://arxiv.org/abs/1704.03155

EAST代碼:https://github.com/argman/EAST

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章