1)網絡架構:文本框的架構++
如圖2所示。它繼承了流行的VGG-16 AR-結構[46],保持層從conv1_1到轉換最後兩個完全連接的層將VGG-16分成卷積層(conv6和conv7)按參數下采樣[10]。另外八個卷積-劃分爲四個階段(conv8到conv11)的國際層最大池的不同分辨率附加了af-特conv7.多個輸出層,我們稱之爲文本框層,在最後一個和一些中間層之後插入卷積層。它們也是卷積層預測聚合的輸出,然後進行有效的非最大抑制(NMS)過程。把一切放在上面總之,textbox++是一個完全卷積的結構con-僅支持卷積和聚集層。因此,文本框++可以適應兩種圖像中任意大小的圖像培訓和測試階段。與初步研究相比在本文的[13]中,textbox++替換了最後一個全局變量具有卷積層的平均池層,即更有利於多尺度的培訓和測試
具有垂直偏移的默認框:文本框圖層是文本框++的關鍵組件。文本框層同時預測文本存在和邊界框,以其輸入特徵圖爲條件。輸出邊界文本框+包括定向邊界框q或r,以及最小水平邊界矩形b包含相應的定向邊界框。這個是通過預測補償的迴歸來實現的。每個預設水平默認框的數量位置(示例見圖3)
More precisely, let b 0 =(x 0 ,y 0 ,w 0 ,h 0 ) denote a horizontal default box
默認框的中心點和w 0和h 0是默認框寬度和的高度。
The relationships among q 0 , r 0 and b 0 are as following:
在每個地圖位置,它輸出分類分數和每個相關默認框的偏移量,在中表示爲q 0或r 0迂迴的方式。對於四邊形表示對於定向文本,文本框層預測
指示水平矩形 b = (x,y,w,h) and a 四邊形
given in the following are detected with confidence c
當旋轉矩形表示爲使用時,文本框層預測
and the rotated rectangle
is calculated as following: