實例分割
Hao Chen陳昊 CVPR2020 BlendMask實例分割
COCO上評價指標 mAP 每個實例,每張圖選100個結果
AP:每個結果與GT算IOU 0.5:0.05:0.95 十個取平均
COCO泛化性好,不容易過擬合
缺:COCO標註不過精細
但是這個評價指標沒有對更關注邊界像素的情況,只是檢測的IOU遷移過來的
Cascade R-CNN , Mask RCNN。 Cascade R-CNN等都是基於Mask的
Mask R-CNN
Faster+ FPN
FPN輸入1414
channel都是256
缺:
FPN的輸入和ROI過程下采樣過多,細節丟的太多(1414)
PointRend:
想提升二階段實例的分辨率,(把有鋸齒的部分細節恢復)
PointRend vs Blend Mask
Blend可以用更小的分辨率做到更小,
Mask第二階段需要0.7G的FLOPS
Blend更少
全卷積方法則何如
一 Bottom up:每個像素分類,融合
SOLO(和Mask有點相當了)
分類問題監督明確,focal loss,增加一組座標系,
使用FPN,把一張圖的結果分散到不同map中,減少了每張圖的複雜程度
缺:場景非常複雜時,分類問題平方級的變難,high level信息不夠,僅僅是通過絕對位置座標來關聯融合
SOLOv2有提高
二 Top Down
DeepMask
14x14
缺:一個點預測整個實例時,
InstanceFCN
每個feature map局部只做局部的事,只判斷物體的一部分
Tensor Mask
原版比Mask R-CNN慢
三Proposal-Based(基於檢測框,類似Mask, crop then assemble)
對實例進行定位,大概估計出實例姿態
FCIS
nearestneighbor+ one-hot
MaskLab
檢測框,對檢測框分成3X3或者小格,再分別處理
YOLACT
channel組合
Blender
FCIS空間組合+YOLACT的channel組合
更平滑的空間組合方式進行差值(不是切格子,比較靈活)
算是三維attention
4個 score maps (YOLACT32個, FCIS49個)
Top module
輸出三維attention,FCOS加了一層卷積
Bottom Module
Blender
橙色是檢測模塊
藍色是top mpdule
綠色是語義分割
四組顏色代表四個channel,即4個score map
attention捕捉到的就是姿態
bottom中,S對應的是8,即上採樣到1/8
kxMxM , K 是4 , M是7或者14
通過雙線性差值平鋪到實例上,加權求和得到最終結果
對比試驗:
物體局部分的好一些
SOLOv算是one-stage