2018 CVPR
COCO2017/CityScapes instance segmentation 第一
Instance Segmentation
Path Aggregation Network for Instance Segmentation
代碼地址
Mask R-CNN 中的信息傳播 優化
PANet
Introduce
解決問題:
- 低層級的特徵對於大型實例識別很有用, 最高層級特徵和較低層級特徵之間的路徑長
- 每個建議區域都是基於 從一個特徵層級池化 得到的 特徵網格而預測的,此分配是啓發式的。由於其它層級的丟棄信息可能對於最終的預測還有用,這個流程還有進一步優化的空間
- mask 預測僅在單個視野上執行,無法獲得更加多樣化的信息
改進
- 縮短信息路徑和用低層級的準確定位信息增強特徵金字塔,創建了自下而上的路徑增強
- 爲了恢復每個建議區域和所有特徵層級之間被破壞的信息,作者開發了適應性特徵池化(adaptive feature pooling)技術
可以將所有特徵層級中的特徵整合到每個建議區域中,避免了任意分配的結果。
- 全連接融合層:使用一個小型fc層用於補充mask預測
Augmented Bottom-up Structure
改動原因:
-
low-level的feature是很利於定位用的,雖然FPN中P5也間接得有了low-level的特徵,但是信息流動路線太長了如 紅色虛線 所示 (其中有 ResNet50/101很多卷積層 )
-
本文在 FPN 的 P2-P5 又加了 low-level 的特徵,最底層的特徵流動到 N2-N5 只需要經過很少的層如綠色需要所示 (僅僅有幾個降維 [3×3 ,stride 2 ]的卷積)
以ResNet作爲基礎結構,使用 表示FPN生成對應的特徵層次。 增強路徑從 逐漸接近
每個構建塊通過側向連接將較高分辨率的 和模糊的$P_{i+1} $ 連接到一起,生成新的特徵圖
-
就是 ,沒有做任何處理。
-
- 經過 conv 3 × 3 ,stride 2
(reduce the spatial size)
- 經過 conv 3 × 3 ,stride 2
-
element-wise add
-
conv 3 × 3
注: 所有channel和FPN中一致P2-P5, N2-N5都是256。
每個候選區域的特徵網絡是從新生成的 上池化生成的
Adaptive Feature Pooling
在FPN中,依據候選區域的大小將候選區域分配到不同特徵層次。這樣小的候選區域分配到low-level,大的候選區域分配到high-level。
- high level
Semantic - low level
location
無論是high還是low的feature都有用。
對於每個候選區域,我們提出了池化來自所有層次的特徵,然後融合它們做預測,這稱之爲adaptive feature pooling(自適應特徵池化).
- 對於每個候選區域,我們將其映射到不同特徵層次,如圖(b)深灰色區域
- 使用 ROIAlign 池化來自不同層次的特徵網格
- 再使用融合操作(逐像素SUM或ADD)融合不同層次的特徵網格
Fully-connected Fusion
具備全連接融合層的 mask 預測分支
fc 位置敏感 , 具有適應不同空間位置的能力。fc 層可以 預測類不可知的背景、前景 mask。[1]
考慮到fc和卷積層之間的不同特性,論文是將這兩種層的預測結果融合以達到更好的預測。
- conv1~4 3×3,256
- deconv 上採樣2倍
- 短路 從 conv3 連接 fc , conv4_fc,conv5_fc , channel 減半 (減少計算量)
- mask大小 28×28
fc 產生 784×1×1
reshape 成和 FPN 預測的mask 相同的空間尺寸 - 相加 得到最終預測
通過消融實驗發現:從 conv3 開始做 SUM 操作融合效果是最好的。
Problem
-
Augmented Bottom-up Structure 中 過 conv 3 × 3 ,stride 2之後 add ,這裏的 add 是 element 還是 concat?
element
-
過全連接生成 784,1,1 , 怎麼reshape?
reshape 成 28,28,1
References
[1] https://blog.csdn.net/u013010889/article/details/79485296
實例分割–(PANet)Path Aggregation Network for Instance Segmentation
Path Aggregation Network for Instance Segmentation解讀