图像语义分割概述

图像语义分割

一、图像语义分割含义及原理

含义:对分割后的图像加上语义标签(用不同的颜色代表不同类别的物体),就是给分割后图像中的每一类物体加上标签,输入一般是彩色深度(RGB-D)图像。


要求

(1)分割得到的不同区域内部平整,其纹理和灰度有相似性;

(2)相邻语义分割区域对分割所依据的性质有明显的差异;

(3)分割后不同语义区域的边界有明确且规整。

二、DL(deep learning)时代的语义分割方法

1、全卷积神经网络(FCN)

 FCN基本原理

       可用来分类的神经网络最后几层均是全连接层,会将输入的二维图像压缩至一维,即最后的分类结果。图像语义分割要求输出是二维图像,所以我们需要将全连接层换成全卷积层(卷积核大小为输入特征图大小),即全卷积网络。

 FCN的特点

1)卷积化(convolutional)

FCN直接进行像素级别的端到端的语义分割,以VGG 16为例,将传统的全连接层fc6和fc7均替换成卷积层,fc8替换成21通道(PASCAL VOC数据包含21个类别:20个对象类和一个背景类)的卷积层,作为网络最终输出,这样,网络的输入和输出均是二维图像。

2)上采样(upsample)

在池化过程中,下采样会使图片不断缩小,使得图片中的像素点不能恢复到原图,给像素级别的训练带来困扰。需要对特征图进行上采样(upsample),即反卷积(Deconvolution),FCN中用双线性插值将特征图上采样到原图大小。

下采样倍数不同将导致语义分割结果的精细程度不同,下采样倍数越高,上采样还原后得到的分割结果越粗略,因为较浅的(靠前的)卷积层的感受域较小,学习感知细节部分的能力比较强,而较深的(靠后的)卷积层感受域比较大,适合学习较为整体的、宏观的特征,所以在较深的卷积层上进行反卷积还原,会损失很多细节特征,导致分割结果很粗糙。


所以,在进行反卷积时,会采用一部分较浅层的反卷积信息辅助叠加,来优化结果输出。

3)跳跃层(skip layer)

这个结构的作用就在于优化结果,因为如果将全卷积之后的结果直接上采样得到的结果是很粗糙的,所以FCN将不同池化层的结果进行上采样之后来优化输出。具体结构如下:


2、条件随机场和马尔科夫随机场(CRF和MRF)

条件随机场

将图像中的每个像素点的类别都看作一个变量,考虑任意两个变量之间的关系,建立一个完全图。就是将像素点之间的语义关系考虑进去,鼓励相似的像素分配相同的标签,通过对CRF能量函数进行优化求解,来对FCN图像语义分割预测结果进行优化,得到最终分割结果。

全连接条件随机场(Dense CRF)

为了取得更好的分割结果,研究人员将CRF嵌入到FCN中,就形成了全连接的条件随机场(Dense CRF),可以提高网络模型捕获图像细节的能力,CRF最后预测结果的能量函数可以直接用来指导FCN模型参数的训练。

 CRF as RNN

最开始的Dense CRF中的CRF直接加在FCN后面,比较粗糙,在深度学习中,我们都追求端到端的系统,CRF as RNN采用平均场近似的方法,将CRF真正结合到FCN中,使用相乘相加的计算,将每一步都描述成一层类似卷积的计算。这样既可以将CRF结合进神经网络中,使前向传播和后向传播不存在问题,还可以进行迭代,不同的迭代次数得到结果的优化程度也不同(一般迭代取10次以内)。


MRF

MRF模型认为图像中某一点的特征(一般是像素点的灰度值等信息)只与其附近的一小块区域有关,而与其他区域无关。这是一种基于统计的图像分割算法,模型参数比较少,空间约束力强,使用较为广泛。

3、空洞卷积(Atrous Convolutions)

在不降低空间维度的前提下,增大了相应的感受域,可以改善分割网络。由于FCN的上采样并不能将丢失的信息全部无损的找回来,所以要采用空洞卷积。池化层的下采样会带来信息损失,但去掉池化层会使网络的感受域变小,降低模型的预测精度,而空洞卷积可以去掉池化层的同时不降低网络的感受域,就是采用一个更加稀疏的卷积核来取代池化,在卷积核模板相同的情况下,每进行一次卷积都得到更多的特征图信息。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章