MatrixNets 目標檢測模型解析

論文地址:https://arxiv.org/abs/1908.04646v1

效果:

按照作者的實驗,該模型表現十分突出,遠超cornerNet, 也比CenterNet的性價比高(參數少,準確率略高一點,具體請看圖)

另外是說訓練速度也快一些,且前向時間比CenterNet的快3倍。

聲稱優點:

緩解長寬比例多樣化的問題

類似與FPN,本文也考慮了多尺度問題,但除了尺度特徵圖歸一化,本文把高寬比問題本文也考慮了。

存疑:認爲anchor-base沒有解決這部分問題?(也是加入了各種寬高比例的anchors)。

在anchor-based 方法中,對於長寬比較大或者較小的物體,直接分配到網絡的特徵中去學習,會產生沿某個較短邊上採樣,某個較長邊下采樣的問題(roi align / roi pooling 歸一化)。因此改變了特徵,比如一個橫着的和豎着的刀,歸一化都都被擠壓成接近小正方形的feature map 中。

而本模型可以讓它們各自落在較寬的或者較高的特徵圖上學習。(本來以爲依舊產生了橫向或者縱向壓縮,也是有高度或者寬度上的下采樣和上採樣,但由於使用非正方形的卷積核,所以可以避免一些壓縮)

如下圖:

注:

1、通過下采樣獲得非正方形的特徵圖(使用的是卷積)???  結構時矩陣狀的:矩陣網(MatrixNet的由來)

2、特徵圖之間還有其他連接,但這裏爲了清晰,沒有畫出來。

如圖所示,其中同一行或者同一列的尺寸,下采樣的邊爲之前的1/2關係

self.downsample_transformation_12 = conv3x3(256, 256, padding=1, stride=(1,2))

 

在5x5的MatrixNets結構中,共引申出9個端點(把網絡拓撲結構看成樹的話)19個可用特徵圖,每個存在特徵圖的格子會取學習尺度和寬高比適應的目標。使得正方形卷積可以平等得收集各個形狀的特徵信息。

筆者,暫時這樣理解:

一個躺着的人和一個站着的人,那麼訓練時他們應該分別匹配特徵圖(4,2)和特徵圖(2,4),這樣經過尺度和單維度下采樣後,都大致佔據一個正方形的feature map塊,因此再進行後面的卷積後,形成了歸一化特徵。

訓練時候,參考之前faster-rcnn的fpn方式,會挑選恰當的目標在合適的特徵圖上產生誤差(每個特徵圖學到了歸一化的特徵(形狀大小差不多))。

 

易於移植

matrix架構可以遷移使用,這裏作者以基於關鍵點的檢測任務爲例,命名爲keypoint-
matrixnet(KP-xNet),基於cornerNet的思想修改得來。

作者認爲,當前的單階檢測模型由於只有單輸出層,所以需要強大(猜測主要指容量複雜度,運算量等)的backbone,cornerNet還需要特殊的cornerpooling層,和ebbendding層取匹配出完整目標(比較容易出錯)。作者將embedding layer去掉,轉而直接檢測物體的中心點(這部分類似centerNet的思想)。

看得出來,又加入了不少特徵圖,所以需要進行適當的剪參。後處理運算量增加了,覺得可以根據實際需求設計matrixNet.

 

 

思考:

1、感覺本質上還是改進版fpn吧,但合情合理,確實應該有使用價值。

2、之前提到了anchor-based 歸一化產生的短邊上採樣,長邊下采樣,如果當前網絡還是移植到anchor-based架構中,依然需要歸一化,產生這些問題,除非設計多種尺寸的head分支。。。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章