DeepLab系列论文阅读笔记(更新中)

1.DeepLab v1

论文:Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs

  • Deeplab v1主体结构是参照VGG改造的。
  • deeplab = 优化后的CNN+传统的CRF模型,CNN输出粗糙的分割结果,全连接CRF精化分割结果。
  • 新的上采样卷及方案:带孔的空洞卷积
    在这里插入图片描述
    文章微调了VGG16的预训练模型,把1000-way的ImageNet分类器替换为21-way(pascal voc的类别)。使用交叉熵损失函数,把下采样8倍的输出特征图与Ground Truth做交叉熵。使用SGD来优化。
    在这里插入图片描述在这里插入图片描述在这里插入图片描述

pool4和pool5的stride从2变为1,因此输出的feature map是原来的四倍,是原图的1/8。
conv5采用hole=2的空洞卷积,fc层使用hole=4的空洞卷积。最后上采样8倍,再送入全连接CRF。
参考:https://blog.csdn.net/longxinghaofeng/article/details/85258124

2.DeepLab v2

论文:DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs

  • 3 challenges in DCNNs to segmatic image segmentation:

    • 1.reduced feature resolution 传统分类CNN网络中连续的池化和降采样将导致空间分辨率明显下降
      DeepLab v2使用Atrous Convolution 代替原来上采样的方法,比之前得到更高像素的score map,并且增加了感受野的大小
    • 2.existance of objects at multiple scales 多尺度目标
      在给定特征层使用不同的采样率进行重采样,使用具有不同采样率的平行atrous卷积层实现(ASPP)
      在这里插入图片描述
    • 3.reduce localization accuracy due to DCNN invariance DCNN的不变性,导致定位准确率下降
      使用全连接的条件随机场,利用低层的细节信息对分类的局部特征进行优化。
      在这里插入图片描述
  • ASPP:带孔的空间金字塔池化(astrous spatial pyramid pooling)
    在这里插入图片描述
    Two efficient ways to perform atrous conv:
    First, unsample the filters by inserting holes(zeros)
    Second, subsampling the input feature map by a factor equal to atrous rate r
    在这里插入图片描述

    1. LargeFOV 空洞卷积r=12,baseline
    2. ASPP-S 使用四个较小的空桶卷积,r分别为2,4,8,12。在CRF之后LargeFOV和ASPP-S效果差不多。
    3. ASPP-L 使用四个较大的空洞卷积,r分别为6,12,18,24 。效果比baseline要好,达到了72.6%
      在这里插入图片描述
      在这里插入图片描述
  • 使用VGG16和ResNet101实验,证明ResNet效果好。下表为在Cityscapes上的检测率:
    在这里插入图片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章