論文中作者網絡(e)與其他網絡對比
貢獻
- 只包含兩個階段:全卷積網絡(FCN)和非極大值抑制(NMS)。FCN直接產生文本區域,沒有冗餘和耗時的中間步驟。
- 可以靈活的生成詞級或者行級的預測,它們的集合形狀可以是旋轉框或者四邊形。
- 採用了Locality-Aware NMS來對生成的幾何進行過濾
- 所提出的算法在精度和速度方面都有所提高
方法
特徵提取主幹 + 特徵合併分支 + 輸出層部分
1. Pipeline
該模型是一個全卷積的神經網絡,適用於文本檢測,輸出密集的每個像素預測的單詞或文本行。後處理步驟僅包括預測幾何形狀的閾值和NMS。
其中圖像被饋送到FCN,並且生成多個像素級文本得分圖(Score Map)和幾何通道。預測通道中的一個是得分圖,其像素值在[0,1]的範圍內。 其餘通道表示從每個像素的視圖中包圍該單詞的幾何。 分數代表在相同位置預測的幾何形狀的置信度。
兩種幾何形狀(旋轉框RBOX和四邊形QUAD),分別設計了不同的損失函數。使用閾值過濾掉一些幾何,然後NMS,得到最終輸出。
2.Network Design(網絡設計)
特徵融合(結合不同級別的網絡特徵)。爲了降低計算成本沒有采用HyperNet,而是採用了U形網絡的思想。
特徵提取主幹 + 特徵合併分支 + 輸出層部分
-
特徵能提取主幹:用於提取特徵,採用 PVANet(文末的代碼中使用的是ResNet_v1_50)
-
特徵合併分支:
-
在每個合併階段,使用最後一個階段的feature map 進行uppooling(上採樣將原圖像放大2倍)
-
然後與前一層 feature map 連接 concatenate
-
接着使用1×1卷積覈減少通道數量並減少計算(卷積核的個數128,64,32)
-
然後使用3×3卷積核產生該合併階段的輸出(卷積核的個數128,64,32)
在最後一個合併階段,使用只使用3x3的卷積核產生合併階段最終的feature map,並給輸出層。
-
-
輸出層,有若干1×1卷積操作,將32通道的特徵圖投影到 1通道的得分圖 和 多通道幾何圖中。 幾何輸出可以是RBOX或QUAD。(文末的代碼中只實現了RBOX)
- RBOX 幾何形狀由4個通道的軸對齊邊界框(AABB)R和1個通道旋轉角θ表示。其中4個通道分別表示從像素位置到矩形的頂部,右側,底部,左部的4個距離。
- QUAD 使用8個數字來表示從四邊形的四個角頂點到像素位置的距離。 每一個距離包含兩個數字,因此幾何輸出包含8個通道。
3.Label Generation(標籤生成)
標籤生成流程圖
(a)文本四邊形(黃色虛線)和壓縮四邊形(綠色實線)
(b)文本分數圖(text score map)
(c)RBOX幾何圖生成
(d)每個像素到矩形邊界的4個通道距離
(e)旋轉角度
-
分數圖(Score Map)的生成
-
分數圖上四邊形的正面積設計爲原始面積的縮小版
-
對於四邊形,其中是四邊形上的頂點,以順時針順序排列。 爲了縮小Q,我們首先計算每個頂點的參考長度
此處 是 和 的 L2 距離我們首先縮小四邊形的兩個較長邊,然後縮短兩個較短邊。對於每對兩個相對的邊,我們通過比較它們的長度的平均值來確定“更長”的對。 對於每個邊,我們通過將其兩個端點沿邊緣向內移動和來縮小它。
-
-
幾何圖(Geometry Map)的生成
對於那些文本區域以QUAD樣式註釋的數據集(例如,ICDAR 2015),首先生成一個旋轉矩形,用最小的面積覆蓋區域。然後對於每個具有正分數的像素,我們計算它到文本框的4個邊界的距離,並將它們放到RBOX ground truth 的 4 個通道中。 對於QUAD ground truth,8通道幾何圖中具有正分數的每個像素的值是其從四邊形的4個頂點的座標偏移。
4. Loss Functions(損失函數)
代表分數損失,代表幾何的損失,,在論文中,設置爲1
1. Loss for Score Map ()
類平衡交叉熵(class-balanced cross-entropy):用於解決類別不平衡訓練,避免通過 平衡採樣和硬負挖掘 解決目標物體的不平衡分佈,簡化訓練過程
這裏 是score map 的預測值,是Ground Truth。參數 是正樣本和負樣本的平衡因子:
2. Loss for Geometries ()
文本在自然場景中的尺寸變化極大。直接使用L1或者L2損失去迴歸文本區域將導致損失偏差朝更大更長.因此論文中採用IoU損失在 RBOX 迴歸的 AABB 部分,尺度歸一化的 smoothed-L1 損失在 QUAD 迴歸,來保證幾何形狀的迴歸損失是尺度不變的
-
RBOX
交併比損失
代表AABB四邊形的預測,是對應的Ground Truth,的寬和高是:
, , , 代表從一個像素到它對應矩形的頂部,右邊,底部,左邊的距離,相交的面積爲:
接下來,旋轉角的損失計算:
是預測的旋轉角,是Ground Truth。最後,總體損失爲AABB損失和旋轉角損失的加權和:
論文中設置爲10。 -
QUAD
添加歸一化的 Smoothed-L1
損失值:
其中歸一化項是四邊形的短邊長度,由下式給出
是具有不同頂點排序的的所有等效四邊形的集合。 由於公共訓練數據集中的四邊形標註不一致,因此需要這種排序排列。
5. Locality-Aware NMS(局部感知NMS)
由於本文產生的幾何體數量加大,使用普通的NMS時間複雜度太高(),針對這個,提出了基於行合併幾何體的方法(加權平均)。
假設來自鄰近像素的幾何形狀傾向於高度相關,就逐行合併幾何,並且在同一行中合併幾何形狀時,我們將迭代地合併當前遇到的幾何與最後合併的幾何。 這種改進的技術在最佳場景1中以運行。 即使最壞的情況與簡單的情況相同,只要假設成立,算法在實踐中運行得足夠快。
論文中給出的檢測效果圖:
總結
EAST由於感受野不夠大,所以對較長文本行檢測效果不是太好,比較適合短文本行檢測。
CTPN由於LSTM的存在,對長文字的檢測效果比EAST好,但是對於傾斜的文本行檢測效果不太好。