DeepLab系列論文閱讀筆記(更新中)

1.DeepLab v1

論文:Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs

  • Deeplab v1主體結構是參照VGG改造的。
  • deeplab = 優化後的CNN+傳統的CRF模型,CNN輸出粗糙的分割結果,全連接CRF精化分割結果。
  • 新的上採樣卷及方案:帶孔的空洞卷積
    在這裏插入圖片描述
    文章微調了VGG16的預訓練模型,把1000-way的ImageNet分類器替換爲21-way(pascal voc的類別)。使用交叉熵損失函數,把下采樣8倍的輸出特徵圖與Ground Truth做交叉熵。使用SGD來優化。
    在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述

pool4和pool5的stride從2變爲1,因此輸出的feature map是原來的四倍,是原圖的1/8。
conv5採用hole=2的空洞卷積,fc層使用hole=4的空洞卷積。最後上採樣8倍,再送入全連接CRF。
參考:https://blog.csdn.net/longxinghaofeng/article/details/85258124

2.DeepLab v2

論文:DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs

  • 3 challenges in DCNNs to segmatic image segmentation:

    • 1.reduced feature resolution 傳統分類CNN網絡中連續的池化和降採樣將導致空間分辨率明顯下降
      DeepLab v2使用Atrous Convolution 代替原來上採樣的方法,比之前得到更高像素的score map,並且增加了感受野的大小
    • 2.existance of objects at multiple scales 多尺度目標
      在給定特徵層使用不同的採樣率進行重採樣,使用具有不同採樣率的平行atrous卷積層實現(ASPP)
      在這裏插入圖片描述
    • 3.reduce localization accuracy due to DCNN invariance DCNN的不變性,導致定位準確率下降
      使用全連接的條件隨機場,利用低層的細節信息對分類的局部特徵進行優化。
      在這裏插入圖片描述
  • ASPP:帶孔的空間金字塔池化(astrous spatial pyramid pooling)
    在這裏插入圖片描述
    Two efficient ways to perform atrous conv:
    First, unsample the filters by inserting holes(zeros)
    Second, subsampling the input feature map by a factor equal to atrous rate r
    在這裏插入圖片描述

    1. LargeFOV 空洞卷積r=12,baseline
    2. ASPP-S 使用四個較小的空桶卷積,r分別爲2,4,8,12。在CRF之後LargeFOV和ASPP-S效果差不多。
    3. ASPP-L 使用四個較大的空洞卷積,r分別爲6,12,18,24 。效果比baseline要好,達到了72.6%
      在這裏插入圖片描述
      在這裏插入圖片描述
  • 使用VGG16和ResNet101實驗,證明ResNet效果好。下表爲在Cityscapes上的檢測率:
    在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章