The architecture of TextBoxes++

原創

2019-06-16 12:09

1）網絡架構：文本框的架構++

如圖2所示。它繼承了流行的VGG-16 AR-結構[46]，保持層從conv1_1到轉換最後兩個完全連接的層將VGG-16分成卷積層（conv6和conv7）按參數下采樣[10]。另外八個卷積-劃分爲四個階段（conv8到conv11）的國際層最大池的不同分辨率附加了af-特conv7.多個輸出層，我們稱之爲文本框層，在最後一個和一些中間層之後插入卷積層。它們也是卷積層預測聚合的輸出，然後進行有效的非最大抑制（NMS）過程。把一切放在上面總之，textbox++是一個完全卷積的結構con-僅支持卷積和聚集層。因此，文本框++可以適應兩種圖像中任意大小的圖像培訓和測試階段。與初步研究相比在本文的[13]中，textbox++替換了最後一個全局變量具有卷積層的平均池層，即更有利於多尺度的培訓和測試

具有垂直偏移的默認框：文本框圖層是文本框++的關鍵組件。文本框層同時預測文本存在和邊界框，以其輸入特徵圖爲條件。輸出邊界文本框+包括定向邊界框q或r，以及最小水平邊界矩形b包含相應的定向邊界框。這個是通過預測補償的迴歸來實現的。每個預設水平默認框的數量位置（示例見圖3）

More precisely, let b 0 =(x 0 ,y 0 ,w 0 ,h 0 ) denote a horizontal default box