【實例分割】論文閱讀-CenterMask: Real-Time Anchor-Free Instance Segmentation

論文:CenterMask : Real-Time Anchor-Free Instance Segmentation
作者:Youngwan Lee and Jongyoul Park Electronics and Telecommunications Research Institute (ETRI), South Korea

Abstract

我們提出了一個簡單而有效的無錨點的實例分割,稱爲CenterMask,它與Mask R-CNN類似向無錨框的一階段目標檢測器(FCOS [33])添加了一個新穎的空間注意力導向Mask(SAG-Mask)分支。SAG-Mask分支將使用空間關注圖預測每個檢測到的盒子上的分割Mask,以幫助關注信息像素並抑制噪聲。我們還提出了一種改進的骨幹網絡VoVNetV2,它具有兩種有效的策略:(1)殘差連接以緩解較大的VoVNet的優化問題[19],以及(2)有效的壓縮激勵(eSE),用於處理通道信息丟失問題。藉助SAG-Mask和VoVNetV2,我們分別設計了分別針對大型和小型模型的CenterMask和CenterMask-Lite。使用相同的ResNet-101-FPN主幹,CenterMask達到了38.3%,超越了以前所有的最新方法同時以更快的速度。 CenterMask-Lite在Titan Xp上也以超過35fps的速度大幅領先於最新技術。我們希望CenterMask和VoVNetV2可以分別作爲用於各種視覺任務的實時實例分割和骨幹網絡的堅實基準。

在這裏插入圖片描述

1. Introduction

最近,實例分割已取得了超越目標檢測的巨大進步。 最有代表性的方法,Mask R-CNN [9],擴展到目標檢測(例如,Faster R-CNN [30]),已主導了COCO [23]基準,因爲可以通過檢測目標然後預測每個框內的像素來輕鬆解決實例分割問題。 但是,即使有很多工作[15、2、3、20、24]用於改進Mask R-CNN [9],但考慮到實例分割速度的工作卻很少。 儘管由於YOLACT [1]的並行結構和極其輕巧的Assembly過程,它是第一個實時的一階段實例分割,但與Mask R-CNN [9]的準確性差距仍然很大。 因此,我們旨在通過提高準確性和速度來彌合差距。

Mask R-CNN [9]基於兩階段對象檢測器(例如,Faster R-CNN),該對象檢測器首先生成候選框,然後預測框的位置和分類,而YOLACT [1]建立在一階段目標檢測器上( RetinaNet [22]),無需生成候選框即可直接預測然而,這些物體檢測器嚴重依賴於預定義錨,該預定義錨對超參數(例如,輸入大小,縱橫比,比例等)和不同的數據集敏感。 此外,由於它們密集地放置錨框以提高查全率,所以過多的錨框會導致正/負樣本的不平衡以及較高的計算/內存成本。 爲了解決錨框的這些缺點,最近,許多工作[18、6、38、39、33、38]傾向於通過使用角/中心點從錨框向無錨的方向轉變,這與基於錨框的探測器相比,效率更高,性能更好。
在這裏插入圖片描述
因此,我們設計了一個簡單但有效的無錨框一階段實例分割,稱爲CenterMask,它以與Mask R-CNN相同的方式向更高效的一階段無錨框目標檢測器(FCOS [33])添加了一個新穎的空間注意力導向的Mask分支。 圖2顯示了CenterMask的概述。 插入FCOS [33]對象檢測器後,我們的空間注意力引導模塊(SAG-Mask)分支將使用FCOS [33]檢測器中的預測框來預測每個關注區域(RoI)上的分割Mask。 SAG-Mask中的空間注意模塊(SAM)幫助Mask分支將注意力集中在有意義的像素上,並壓制無關的像素。

在提取每個RoI的特徵以進行Mask預測時,應考慮RoI比例來分配每個RoI池。 Mask R-CNN [9]提出了一種對其方式RoIAlign,它不考慮輸入比例。 因此,我們設計了一種具有比例尺的RoI分配函數,該函數考慮了輸入比例尺,是一種更適合的一級目標檢測器。 我們還提出了一種基於VoVNet [19]的更有效的骨幹網絡VoVNetV2,由於其一鍵式聚合(OSA),它比ResNet [10]和DenseNet [14]具有更好的性能和更快的速度。

在Squeeze-Excitation(SE)通道注意模塊中,發現全連接層會減小通道大小,從而減少計算負擔但會意外地導致通道信息丟失。 因此,我們將SE模塊重新設計爲有效的SE(eSE),用保持通道維度的一個FC層代替了兩個FC層,從而防止了信息丟失,進而提高了性能。 通過殘餘連接和eSE模塊,我們建議使用各種規模的VoVNetV2。 從輕量級VoVNetV2-19,基本VoVNetV2-39 / 57和大型模型VoVNetV2-99,它們對應於MobileNet-V2 [11],ResNet-50 / 101 [10]和HRNetW18 / 32 [32]和ResNeXt-32x8d [ 36]。

2. CenterMask

在本節中,我們首先回顧無錨點的目標檢測器FCOS [33],它是CenterMask的基本對象檢測部分。 接下來,我們演示CenterMask的體系結構,並描述如何設計建議的空間注意力引導Mask分支(SAG-Mask)以插入FCOS [33]檢測器。 最後,提出了一種更有效的骨幹網絡VoVNetV2,以提高CenterMask在準確性和速度方面的性能。

2.1. FCOS

FCOS [33]是像FCN [26]那樣在每個像素的預測方式下無需錨定和建議的物體檢測。諸如Faster RCNN [30],YOLO [29]等最先進的物體檢測器]和RetinaNet [22]使用預定義錨框的概念,該錨框需要精心的參數調整和與訓練中的IoU相關的複雜計算。如果沒有錨框,FCOS [33]會直接預測4D向量以及特徵圖水平上每個空間位置的類標籤。如圖2所示,4D向量嵌入了從邊界框的四個側面到位置(例如,左,右,頂部和底部)的相對偏移量。另外,FCOS [33]引入了centerness分支來預測像素到其相應邊界框中心的偏差,從而提高了檢測性能。爲避免錨框的複雜計算,FCOS [33]降低了內存/計算成本,但也優於基於錨框的目標檢測器。由於FCOS [33]的效率和良好的性能,我們設計了基於FCOS [33]對象檢測器的擬議CenterMask。

2.2. Architecture

圖2顯示了CenterMask的總體架構。 CenterMask由三部分組成:(1)用於特徵提取的主幹,(2)FCOS [33]detection head和(3)Mask head。 Mask的生成過程包括:從FCOS [33]中檢測物體,然後以像素爲單位預測裁剪區域內部的分割Mask。
在這裏插入圖片描述

2.3. Adaptive RoI Assignment Function

在FCOS [33]box head 中預測候選框後,CenterMask使用與Mask RCNN相同的預測框區域來預測分割掩碼。 由於RoI是根據特徵金字塔網絡(FPN [21])中不同尺度的特徵圖預測的,因此提取特徵的RoI Align [9]應相對於RoI比例在不同的特徵圖比例下分配。 具體而言,必須將大尺度的RoI分配給更深的特徵,反之亦然。
在這裏插入圖片描述

2.4. Spatial AttentionGuided Mask

近來,注意力方法[13、34、40、28]已被廣泛地應用於物體檢測,因爲它有助於專注於重要特徵,同時還能抑制不必要的特徵。 特別是,通道注意[13,12]強調了“什麼”來聚焦於特徵圖的通道,而空間關注[34,4]則關注了“哪裏”是一個信息區域。受空間注意機制的啓發,我們採用了空間關注模塊引導Mask head聚焦有意義的像素並壓制無用的像素。

因此,我們設計了一個空間注意力引導模塊(SAGMask),如圖2所示。一旦RoI Align [9]以14 x 14分辨率提取了預測RoI內的特徵,這些特徵將被饋送到四個轉換層和空間注意模塊(SAM)順序,具體過程如圖所示。

2.5. VoVNetV2 backbone

在本節中,我們提出了更有效的骨幹網絡VoVNetV2,以進一步提高CenterMask的性能。 VoVNetV2是在VoVNet [19]引入殘差[10]以及改進的有效擠壓和激發(eSE)注意模塊。 VoVNet是一種計算和節能的骨幹網,由於一鍵聚合(OSA)模塊,可以有效地呈現多樣化的特徵表示。 如圖3(a)所示,OSA模塊由連續的conv層組成,並立即聚合後續的特徵圖,它可以高效地捕獲各種感受野s,並且在準確性和速度方面均優於DenseNet和ResNet。
在這裏插入圖片描述
殘差連接: 即使具有有效且多樣化的特徵表示,VoVNet在優化方面也有侷限性。 隨着OSA模塊在VoVNet中堆疊(例如更深),我們觀察到更深模型的準確性已飽和或降級。 具體而言,表4顯示了VoVNetV1-99的準確性低於VoVNetV1-57的準確性。 基於ResNet [10]的動機,我們推測由於轉換函數(例如conv)的增加,堆疊OSA模塊使梯度的反向傳播逐漸變得困難。 因此,如圖3(b)所示,我們還將恆等特徵[10]添加到OSA模塊。 正確說,把輸入連接到OSA模塊的末端,該OSA模塊能夠像ResNet這樣在每個階段以端到端的方式反向傳播每個OSA模塊的梯度。 Identity mapping提高了VoVNet的性能,也使VoVNet可以擴展其深度,例如VoVNet-99。

Effective Squeeze-Excitation (eSE): 爲進一步提高VoVNet的性能,我們還提出了一個通道注意模塊,即有效壓縮激勵(eSE),可以更有效地改善原始SE [13]。 壓縮激勵(SE)[13]是CNN架構中採用的一種代表性的通道注意方法,用於顯式地建模特徵圖通道之間的相互依賴性,以增強其表示能力。 SE模塊通過全局平均池壓縮空間相關性,以學習特定於通道的描述符,然後使用兩個全連接(FC)層以及S型函數來重新縮放輸入特徵圖從而凸顯有用通道。

但是,SE模塊還具有侷限性:由於維度減小而導致信道信息丟失。 爲了避免較高的模型複雜性負擔,SE模塊的兩個FC層需要減小通道數量。具體來說,雖然第一FC層使用縮小率r將輸入特徵通道C減少到C/r,但是第二FC層將縮小的通道擴展爲C,此通道維度減小導致通道信息丟失。

因此,我們提出了有效的SE(eSE),它僅使用一個具有C通道的FC層,而不使用降低通道尺寸的兩個FC,從而維護了通道信息,從而提高了性能。
在這裏插入圖片描述

2.6. Implementation details

由於CenterMask建立在FCOS [33]對象檢測器上,因此我們遵循FCOS [33]的超參數,但正分數閾值0.03代替0.05,因爲FCOS [33]在初始訓練時間內不能很好地生成正RoI樣本。 在檢測步驟中使用具有256個通道的FPN深度從3至7,在Masking步驟中使用P3~ P7,如2.3中所述。 我們還使用Mask Scores[15],它會根據Mask RCNN中的Predict Mask quality(例如,Mask IoU)重新校準分類得分。

CenterMask-Lite: 爲了實現實時處理,我們嘗試使CenterMask變得輕量化。 我們縮小了三個部分的大小:Backbone、box head,mask head。 在骨幹網中,首先,我們將FPN的通道C從256減少到128,這可以減少FPN中3 x 3 conv的輸出,還可以減少box和mask head的輸入尺寸。 然後,我們用更輕量的VoVNetV2-19代替骨幹網絡,該網絡在每個階段具有4個OSA模塊,每個模塊由3個卷積層組成,而不是VoVNetv2-39 / 57中的5個。 在Box head中,每個分類和Box分支上有4個3 x 3 卷積層,每個層具有256個通道,其中centerness分支與Box分支共享。 我們將128通道的卷積層數從4減少到2。 最後,在Mask head中,我們還將特徵提取器和Mask score部分中的卷積層和通道數分別從(4,256)減少到(2,128)。

Training: 我們將檢測框的數量從FCOS [33]設置爲100,將得分最高的框送入SAG-mask分支以訓練Mask分支。 我們使用與RoI及其關聯的Ground-truth mask之間的交集所形成的Mask R-CNN相同的Mask target。訓練的時候,我們定義了多任務的損失函數對於每一個ROI,如下:L=Lcls+Lcenter+Lbox+LmaskL = L_{cls} + L_{center} + L_{box} +L_{mask} 他們分別爲分類損失、中心損失、方框迴歸損失、以及Mask損失(二值交叉熵)

除非指定,否則將調整輸入圖像的大小爲800 x 1333(或者小於)。我們通過使用隨機梯度下降(SGD)進行90K迭代(12個時期)來訓練CenterMask。 mini-batch16張圖像,初始學習率0.01,在60K和80K迭代時分別降低了10倍。 我們分別使用0.0001的權重衰減和0.9的動量。 所有骨幹模型均由ImageNet預先訓練的權重初始化。

Inference: 在測試時,FCOS檢測部分會產生50個高分檢測框,然後mask分支使用它們來預測每個RoI上的分段mask。 CenterMask / CenterMask-Lite對較短的一側分別使用800/600像素的單個比例。

3. Experiments

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

4. Discussion

在表5中,我們觀察到,使用相同的ResNet-101主幹,Mask R-CNN [9]在小對象上顯示出比CenterMask更好的性能。 我們推測,Mask R-CNN [9]比Center Mask(P3)使用更大的特徵圖(P2),其中,Mask分支可以提取比P3特徵圖更精細的對象空間佈局。 我們注意到,仍然存在改善一級實例分割性能的空間,例如Mask R-CNN [9]的技術[2,3]。

5. Conclusion

我們提出了一種實時無錨點的一級實例分割和更有效的骨幹網絡。 通過將空間注意力引導的Mask分支添加到無錨點的一階段實例檢測中,CenterMask以實時速度實現了最先進的性能。 新提出的VoVNetV2骨幹網從輕量級模型到大型模型,都使CenterMask在速度和準確性方面達到了均衡的性能。 我們希望Center-Mask將作爲實時實例分割的基準。 我們還相信,我們提出的VoVNetV2可以用作各種視覺任務的強大而高效的骨幹網絡[37,16]。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章