Deep Semantic Segmentation of Natural and Medical Images: A Review——翻译

Title Deep Semantic Segmentation of Natural and Medical Images: A Review
标题 自然和医学图像深度语义分割综述
pdf地址 https://arxiv.org/pdf/1910.07655.pdf

摘要

  (医学)图像语义分割任务包括将图像的每个像素(或几个像素)分类为一个实例,其中每个实例(或类别)对应一个类。 此任务是场景理解概念的一部分,或者更好地解释图像的全局上下文。 在医学图像分析领域,图像分割可用于图像引导干预,放射治疗或改进的放射学诊断。 在这篇综述中,我们将领先的基于深度学习的医学和非医学图像分割解决方案分为六大类:深度架构,基于数据合成,基于损失函数,序列模型,弱监督和多任务方法。 此外,对于每一类方法,我们分析了他们的每个变体,并讨论了当前方法的局限性以及语义图像分割的未来研究方向。

1. 简介

  深度学习对科学的各个领域产生了巨大的影响。当前研究的重点是计算机视觉的最关键领域之一:医学图像分析(或医学计算机视觉),尤其是基于深度学习的医学图像分割方法。分割是自然图像中重要的处理步骤,用于场景理解和医学图像分析,用于图像指导的干预,放射疗法或改进的放射学诊断等。许多用于医学影像分割的深度学习方法在文献中被提出用于不同的医学成像模式,包括X射线,可见光成像(例如彩色皮肤镜图像),磁共振成像(MRI),正电子发射断层扫描(PET),计算机断层扫描(CT)和超声(例如超声心动图扫描)。深度架构的改进一直是许多研究人员针对不同目的的关注点,例如,解决深度模型的梯度消失和爆炸,有效的小型但精确的模型压缩,而其他工作则尝试通过引入新的优化函数来改善深度网络的性能。

  与其他关于基于深度学习的自然图像和医学图像语义分割的综述文献[35,41,47,52,71,140,179]相比,我们有以下贡献:

  • 我们全面介绍了自然和医学图像语义分割领域的研究成果。 在成像方式方面,我们涵盖了2D(RGB和灰度)和立方体医学图像。
  • 我们基于语义分割文献的贡献性质将其分为六类:体系结构改进,基于优化功能的改进,基于数据合成的改进,弱监督模型,序列模型和多任务模型。 图1指出了我们在此综述中涵盖的类别。
  • 在进行全面综述之后,我们认识到并建议了每个类别的重要研究方向
    在这里插入图片描述
      在以下各节中,我们将讨论在图1中可视化的不同类别下的深度语义图像分割的改进。对于每个类别,我们首先回顾非医学数据集的改进,然后在下一节中,我们调研针对医学图像的改进。

2. 网络架构改进

  本节讨论使用卷积神经网络(CNN)进行语义图像分割的进展,这些进展已应用于自然图像和医学图像的解译任务[36,84]。 改进主要归因于探索新的神经体系结构(具有不同的深度,宽度,连接性或拓扑结构)或设计了新型的组件或层

2.1 全卷积神经网络(FCN)用于语义分割

  作为第一个基于CNN的高影响力分割模型,Long等人 [86]提出了全卷积网络的像素级标记。 他们建议对输出激活图进行上采样(解卷积),从中可以计算出逐像素的输出。 网络的整体架构如图2所示。为了保留图像中的上下文空间信息,Long等人建议将输出与较浅层的输出融合。 融合步骤如图3所示。
在这里插入图片描述
在这里插入图片描述

2.2 编解码器语义图像分割网络

  接下来,引入了诸如SegNet的编码器-解码器分割网络[103] [7]。 解码器网络的作用是将低分辨率编码器特征映射到全输入分辨率,以进行像素分类。 SegNet的新颖之处在于解码器对较低分辨率的输入特征图进行上采样的方式。 具体来说,解码器使用在相应编码器的最大池化步骤中计算出的池化索引(图4)来执行非线性上采样。 该体系结构(图4)由一系列非线性处理层(编码器)和一组相应的解码器层组成,随后是逐像素分类器。通常,每个编码器由一个或多个具有BN和ReLU非线性的卷积层组成,然后进行非重叠的最大池化下采样。在解码器中,使用编码序列中的最大池化索引,对由于池化过程导致的稀疏编码进行上采样。
在这里插入图片描述
图4:顶部:SegNet架构的图示。 没有完全连接的层,只有卷积层。 下图:SegNet和FCN [86]解码器的图示。 a,b,c,d对应于特征图中的值。 SegNet使用最大池索引对特征图进行升采样(无需学习),并执行卷积操作与可训练的解码器滤波器组。 FCN通过学习对输入特征图进行反卷积来进行上采样,并添加相应的编码器特征图以产生解码器输出。 此特征图是相应编码器中最大池化层的输出。

  Ronneberger等。 [119]提出了一种体系结构(U-Net),该体系结构由捕获上下文的收缩路径和允许精确定位的对称扩展路径组成。 与图像识别(He等人[45])和关键点检测(Honari等人[49])相似,Ronneberger等人(2007年)在编码器/解码器图像分割网络中添加了跳层连接(图5),提高了模型的准确性并解决了梯度消失的问题。
在这里插入图片描述
  Milletari等[91]提出了一种类似的架构(V-Net;(图6)),该架构增加了残差连接,并用3D操作替换了2D操作以处理立体图像。 Milletari等还建议针对广泛使用的分割指标(即Dice)进行优化,这将在第4节中详细讨论。
在这里插入图片描述
  Jeugo等[58]通过改编类似编码器-解码器框架的U-Net,开发了密集连接网络体系结构(DenseNet)[53]的分割版本FCDensenNet。 在图7中,显示了网络的详细架构。
在这里插入图片描述
图7:一百层提拉米苏网络架构图[58]。 该体系结构是由密集的块构建的。 该架构由向下过渡两个的下采样路径和向上过渡两个的上采样路径组成。 圆圈表示串联,箭头表示网络中的连接模式。 灰色的水平箭头表示跳过连接,其中来自下采样路径的特征图与上采样路径中的相应特征图串联在一起。 请注意,上采样路径和下采样路径中的连接模式不同。 在下采样路径中,将密集块的输入与其输出连接在一起,从而导致特征图数量的线性增长,而在上采样路径中,情况并非如此。

  编码器-解码器网络的几种修改版本(例如,更深/更浅,添加了额外的关注块)已应用于语义分割[5、32、82、107、113、155、170]。 最近在2018年,DeepLabV3 + [23]在PASCAL VOC 2012 [29]和Cityscapes [177]数据集上的表现优于许多最新的分割网络。 赵等[172]修改了[86]提出的特征融合操作,提出使用空间金字塔池化模块用于深度神经网络中的语义分割任务(图9)。 **空间金字塔网络PSPNet)**能够编码多尺度上下文信息,通过使用滤波器或池化操作以多种扩张率和多个有效视场。后者通过逐渐恢复空间信息来捕获更清晰的对象边界。
在这里插入图片描述
图9:金字塔场景解析网络概述。 给定输入图像(a),提取最后一个卷积层的特征图(b),然后应用金字塔解析模块收集不同的子区域表示形式,然后进行上采样和串联层形成最终的特征表示形式, (c)中包含局部和全局上下文信息。 最后,将该表示馈入卷积层以获得最终的逐像素预测(d)[172]。

  Chen等[23]提出将扩张卷积和特征金字塔池化的优点结合起来。 特别地,DeepLabv3 + 通过添加一个简单而有效的解码器模块(图10)来扩展DeepLabv3 [21],以细化分割结果,尤其是对象边界
在这里插入图片描述
图10:DeepLabV3 +的示意图; 编码器模块通过在多个尺度上应用扩张卷积来编码多尺度上下文信息,而简单而有效的解码器模块则沿对象边界细化分割结果[23]。

2.3 降低图像分割网络的计算复杂度

  在减少深度分类网络的时间和减少计算复杂度方面已经进行了一些工作[50,74]。其他一些工作试图简化深层网络的结构,例如通过张量分解[69],通道/网络修剪[152]或应用稀疏连接[43]。一些方法专注于深度图像分割网络的复杂度优化。与Saxena等人的工作类似[123],Liu等[85]提出了一种层次神经结构搜索,通过执行单元级和网络级搜索用于语义分割,并获得了与PASCAL VOC 2012 [29]和Cityscapes [177]数据集上的最新结果相当的结果。相反,Chen等[20]集中于使用随机搜索来搜索小得多的无空间金字塔池化模块。

  除了网络架构搜索,Srivastava等 [132]修改了ResNet,以控制通过连接的信息流。 Lin等采用了一步融合而不过滤通道。

2.4 基于注意力的图像语义分割

  可以将注意力视为从多个特征图来选择和定位输入信号中最具判别力的部分。 Hu等 [51]提出了一种选择机制,其中特征图首先使用全局平均池进行聚合,然后缩减为单个通道描述符。然后使用激活门突出显示最具判别性的特征。 Wang等 [146]为深度残差网络(ResNet)添加了一个注意力模块,用于图像分类。他们提出的注意力模块由几个编码-解码层组成。 Fu等 [31]提出了应用空间和通道的注意力的双重注意力网络。

  Li等[76]提出了一种基于金字塔注意力的网络用于语义分割。他们结合了注意力机制和空间金字塔,以提取精确的密集特征进行像素标记,而不是复杂的扩张卷积和人为设计的解码器网络。 Chen等[22]将注意力集中在采用多尺度输入的DeepLab上。

2.5 对抗性语义图像分割

  暂时略过。

2.6 小结

  用于图像分割的主要模型多采用U-Net等编解码器结构。研究表明,扩张卷积和特征金字塔池化可以改善u型网络的性能。在第3节中,我们总结了这些方法以及它们的改进版本是如何应用于医学图像的。

3. 适用于医学图像的结构改进

  在本节中,主要对基于深度学习的2D和3D医学图像分割的体系结构的改进进行综述,由于不是该领域研究者,并且文章所列举研究不具代表性,所以暂时略过。

4. 基于优化函数的改进

  除了使用第2节中提到的体系结构改进来提高分割速度/准确性外,设计新的损失函数也可以提高随后的推理时间和分割精度。

4.1 交叉熵

  用于图像分割的最常用的损失函数是逐像素交叉熵损失(公式2)。 这种损失会逐个检查每个像素,将类别预测向量与one-hot编码向量进行比较。 对于二元分割的情况,令P(Y=0)=pP(Y = 0) = pP(Y=1)=1pP(Y = 1) = 1 − p。 预测由sigmoid函数给出,P(Y^=0)=11+ex=p^P(\hat{Y}=0)=\frac{1}{1+e^{-x}}=\hat{p}, P(Y^=1)=111+ex=1p^P(\hat{Y}=1)=1-\frac{1}{1+e^{-x}}=1-\hat{p},其中xx是网络的输出。 然后可以将交叉熵(CE)定义为:
在这里插入图片描述
  用于多类分割的方程式的一般形式可以写为:
在这里插入图片描述

4.2 加权交叉熵

  交叉熵损失会分别评估每个像素向量的类别预测,然后对所有像素进行平均,这意味着对图像中每个像素的学习均等。 如果各个类别在图像中的表示形式不平衡,则可能会出现问题,因为最普遍的类别可能会主导训练。 Long等 [86]讨论了加权每个类的交叉熵损失(WCE),以抵消数据集中存在的类不平衡现象。 WCE被定义为:
在这里插入图片描述
  为了减少假阴性的数量,将β设置为大于1的值,并且为了减少假阳性的数量,将β设置为小于1的值。为了对负像素也进行加权,可以使用以下平衡的交叉熵 (BCE)[159]:
在这里插入图片描述
Ronnenberger等[119],在交叉熵函数中添加了一个距离函数,以强制学习组件间的距离,进而在目标距离极其相近的的情况下强制得到更好的分割结果,如下所示:
在这里插入图片描述
其中d1(x)d1(x)d2(x)d2(x)是计算细胞分割问题中最近细胞和第二近细胞边界距离的两个函数。

4.3 Focal Loss

  为了减少简单样本的权重,使CNN更多地关注难分样本,Lin等人[83]改进交叉熵损失如下所示:
在这里插入图片描述
设置γ=0γ= 0,该等式将等效于BCE。

4.4 基于重叠度量的损失函数

4.4.1 Dice Loss / F1 Score

  用于图像分割任务的另一个流行的损失函数是基于Dice系数的,Dice系数实质上是两个样本之间重叠的度量,并且等效于F1分数。 此度量的范围是0到1,其中Dice系数为1表示完全重叠。 骰子系数(DC)的计算公式为:
在这里插入图片描述
  相似地,Jaccard指标(IoU)的计算公式为:
在这里插入图片描述
其中X和Y分别是预测和GT分割。 TP为真阳性,FP为假阳性,FN为假阴性。 我们可以看到DCIoUDC≥IoU
  要将其用作损失函数,可以将DC定义为骰子损失(DL)函数[91]:
在这里插入图片描述
其中,p{0,1}np\in \{0, 1\}^n, 0p^10 \leq \hat{p} \leq 1ppp^\hat{p}是真值和预测分割结果,<,><\cdot , \cdot>表示点乘运算。

4.4.2 Tversky Loss

  Tversky Loss(TL)[122]是Dice Loss的一般形式。 为了控制FP和FN的水平,TL对其加权如下:
在这里插入图片描述
β=0.5\beta=0.5时,公式11就演化成公式10。

4.4.3 指数对数损失(Exponential Logarithmic Loss Wong)

  Wong等[156]提出使用指数对数骰子损失(LeldL_{eld})和加权指数交叉熵损失(LweceL_{wece})的加权和,当分割任务的目标大小之间存在较大的差异时可以提高小结构的分割精度。
在这里插入图片描述
xilx,i和l表示像素位置,预测标签和地面真实标签。 DiD_i表示平滑的Dice损失(通过在方程式10中的分子和分母上加上ϵ=1\epsilon= 1项来处理训练时缺失标签的位置),而γDγDγCEγCE分别用于控制各自的非线性损失函数。

4.4.4 LovaˊszLov\acute{a}sz-Softmax loss

  • 结合Lovasz hinge 和Jaccard loss 解决2值图片的分割问题
  • 提出了Lovasz-Softmax loss 对多个类别分割的参数设置
  • 参考:https://blog.csdn.net/Hibercraft/article/details/85807808

4.4.5 Boundary Loss

参考:https://zhuanlan.zhihu.com/p/72783363

4.4.6 总结

  其他工作还包括优化分割度量的方法[104],加权损失函数[120]以及向损失函数添加正则化以编码几何和拓扑形状先验[9,92]。

  图像分割(尤其是医学图像)中的一个重要问题是要克服类别不平衡问题,对于此类不平衡问题,基于重叠度量的方法在克服不平衡方面已显示出相当好的性能。

  在图11中,我们可视化了用于分割大型和小型对象的不同损失函数的行为。对于损失函数的参数,我们使用与作者在各自论文中所报告的参数相同的参数。对于每个图,从左到右移动,预测和真值掩码的重叠逐渐变小,即产生更多的假阳性和假阴性。理想情况下,损耗值应随着更多的假阳性和预测阴性而单调增加。对于大型对象,几乎所有功能都遵循此假设;但是,对于较小的对象(右图),只有Combo Loss和Focal loss会因较大的误差而单调惩罚更多。换句话说,在分割大小对象时,基于重叠的函数会高度波动(另请参见图12),这会导致优化不稳定。使用交叉熵作为基础的损失函数和重叠度量作为加权正则函数的损失函数在训练过程中显示出更高的稳定性。
在这里插入图片描述

5. 医学影像领域针对优化函数的改进

  如第4节所述,标准CE损失函数及其加权版本已应用于众多医学图像分割问题[56、77、80、101、102、105、124]。 但是,Miletari等 [91]发现在某些情况下,例如,在大背景中具有非常小的前景对象的情况下,DL效果要好于原始的交叉熵。

5.1 正则交叉熵

  Li等[79]提出将以下正则化项添加到交叉熵损失函数中,以产生平滑的分割输出。
在这里插入图片描述
其中ξ\xi^{'}ξ\xi是应用于输入图像xix_i的不同扰动(例如,高斯噪声,网络dropout和随机数据转换)。

5.2 轮廓能量最小化

  徐等[24]提出通过以下损失函数将传统的主动轮廓能量最小化利用到卷积神经网络中。
在这里插入图片描述
在这里插入图片描述
其中,uxi,ju_{x_{i, j}}uyi,ju_{y_{i, j}}中的xxyy代表水平和竖直方向。
在这里插入图片描述
其中uuvv分别表示为预测图像和给定图像。 c1c1设置为1,c2c2设置为0。与Li等人[79],Zhou等人[178]相似,建议将轮廓回归项添加到加权交叉熵损失函数中。

5.3 Hausdorff距离

  Karimi等[62]改进的介于预测和地面真实分割之间的Hausdorff距离函数如下:
在这里插入图片描述
其中第二项是dice loss函数,而第一项可以用p和q的Hausdorff距离的三个不同版本(以下仅列出第一个版本,具体参照原文)代替,p,q分别是地面实况和预测,如下所示;
在这里插入图片描述

6. 基于图像合成的方法应用于医学图像分割

7. 弱监督方法

8. 多任务模型

9. 在自然图像上测试的主要模型的总结

在这里插入图片描述

10. 未来改进方向

10.1 网络架构

  根据最新方法,具有长跳层连接和短跳层连接的编码器-解码器网络是成功的体系结构。深层网络中的跳层连接通过促进对深层网络体系结构的训练降低了梯度消失的风险,提高了分割和分类性能。它们为类似编码器/解码器的网络配备了更丰富的特征表示,但以更高的内存使用量、计算量为代价。与Taghanaki等人的方法[136]相似,未来的工作方向是优化通过跳层连接传输的数据量。至於单元级架构设计,我们的研究表明,带有特征金字塔池模块的Atrous卷积在最近的模型中得到了广泛使用。这些方法在某种程度上是对经典卷积块的修改。与[90,134]中的径向基函数层类似,未来的工作重点可以是设计新层,以捕获数据其他方面的特征相比于卷积操作,或者使得卷积特征更加多样化。

10.2 损失函数

  在医学图像分割工作中,研究人员已趋向于使用经典的交叉熵损失函数以及基于距离或重叠的函数。如[139]所示,当网络中仅使用基于距离或基于重叠的损失函数,并且最后一层应用Sigmoid函数时,梯度消失的风险会增加。但是,对于相同的情况,交叉熵损失返回合理的分数。除了使用基于交叉熵的综合损失函数之外,**未来的工作还可以探讨遵循交叉熵行为的单个损失函数,同时提供更多功能,例如捕获轮廓距离。**这可以通过重新考虑基于距离和重叠的当前损失函数来实现。另一个未来的途径是探索类似于上述神经体系结构搜索的自动损失函数(或正则项)搜索。

10.3 其他潜在方向

  • 通过整合先验知识,超越基于像素强度的场景理解。显式增强先验信息。
  • 研究使用非医学预训练模型进行医学图像分割的风险。
  • 创建大型2D和3D可公开获得的医疗基准数据集以进行语义图像分割,例如“医疗分割十项全能” [127]。这将使研究人员能够准确地比较建议的方法,并针对特定的数据集/问题进行逐步改进。
  • 探索类似于[130,151]的强化学习方法,以进行语义(医学)图像分割,以模仿人类进行描绘的方式。深度CNN可以成功提取不同类别的对象的特征,但它们会丢失对象边界应在何处的局部空间信息。一些研究人员寻求传统的计算机视觉方法来克服此问题,例如条件随机场(CRF),但是CRF为模型增加了更多的计算时间。
  • 使用图像级标签进行弱监督分割。
  • 修改输入而不是模型,损失函数,并添加更多训练数据。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章