综述论文:深度学习在心脏图像分割的应用

作者:
Chen Chen [1], Chen Qin [1], Huaqi Qiu [1],∗, Giacomo Tarroni [1,2], Jinming Duan [3],Wenjia Bai [4,5], and Daniel Rueckert [1]

[1] Biomedical Image Analysis Group, Department of Computing, Imperial College London, London, UK;
[2] Department of Computer Science, City, University of London, London, UK;
[3] School of Computer Science, University of Birmingham, Birmingham, UK;
[4]. Data Science Institute, Imperial College London, London, UK;
[5] Division of Brain Sciences, Department of Medicine, Imperial College London

概述

近年来,深度学习已成为用于心脏图像分割的最广泛使用的方法。 在本文中,我们通过深度学习对100多种心脏图像分割论文进行了综述,涵盖了常见的成像方式,包括磁共振成像(MRI),计算机断层扫描(CT)和超声(US)以及该领域关注的主要解剖结构( 心室,心房和血管)。 此外为给可重复的研究提供基础还提供了包括公开可获得的心脏图像数据集和代码库。 最后我们讨论了当前基于深度学习的方法所面临的挑战和局限性(标签的稀缺性,模型在不同领域的通用性,可解释性),并提出了未来研究的潜在方向。

介绍

根据世界卫生组织(WHO),心血管疾病(CVD)是全球主要的死亡原因。 2016年,约有1790万人死于心血管疾病,主要死于心脏病和中风[1]。 这个数字还在逐年增加。 近几十年来,心血管研究和实践取得了重大进展,旨在改善心脏病的诊断和治疗以及降低CVD的死亡率。 如今,磁共振成像(MRI),计算机断层扫描(CT)和超声(US)等现代医学成像技术已得到广泛使用,这些技术可对心脏解剖结构和功能进行无创定性和定量评估,并为诊断、疾病监测、制定治疗计划和康复预测提供支持。
心脏结构和检测技术
特别令人感兴趣的是,心脏图像分割是许多应用中重要的第一步。 它将图像划分为多个解剖学上有意义的区域,基于这些区域可以提取定量度量,例如心肌质量,壁厚,左心室(LV)和右心室(RV)的体积以及射血 通常,用于心脏图像分割的感兴趣的解剖结构包括LV,RV,左心房(LA),右心房(RA)和冠状动脉。 图1概述了与心脏图像分割有关的典型任务,其中显示了三种最常用的模式(即MRI,CT和US)的应用。

在深度学习兴起之前,传统的机器学习技术如模型方法(例如ASM和APM)和图集方法在心脏图像分割中的有良好表现(Petitjean 2015;Peng 2016;Tavakoli和Amini 2013;Lesage 2009)。但是,它们通常需要大量的特征工程知识或先验知识才能获得令人满意的精度。相反基于深度学习(DL)的算法擅长从数据中自动发现复杂的特征以进行对象检测和分割。使用通用学习过程并以端到端的方式直接从数据集中学习这些特征。这使得基于DL的算法易于应用于其他图像分析应用程序。得益于先进的计算机硬件(例如图形处理单元(GPU)和张量处理单元(TPU))以及可用于训练的更多可用数据,基于DL的分割算法已逐渐超越了以往的传统方法,在研究中越来越受欢迎。在图2A中可以观察到这种趋势,该图显示了用于心脏图像分割的基于DL的论文的数量在最近几年中已大大增加。值得一提的是MR图像分割的文章数量明显高于其他两个领域的出版物数量,这种情形在2017年尤为明显。在图2B中可以观察到的一个原因是,MR分割的公开可用数据自2016年以来有显著增长。

心脏图像论文趋势

在本文中,我们概述了临床实践中三种最常用的方式(即MRI,CT,US)中用于心脏图像分割的最新深度学习技术,并讨论了当前技术的优点和深度学习方法尚存的局限性,这些不足阻碍技术广泛地临床部署。据我们所知,已有几篇评论文章概述了基于DL的方法的应用于一般医学图像分析(Greenspan 2016; Shen 2017; Litjens 2017),以及一些专门针对心血管图像分析而设计的调查(Gandhi 2018; Mazurowski 2019)。但是它们都没有提供针对心脏分割应用的系统概述。这篇综述文章旨在提供从深度学习算法的出现到最新技术,重点是各种心脏图像分割任务(例如LV,RV和血管分割)的全面概述。特别是我们的目标是覆盖直到2019年8月1日为止该领域中最有影响力的深度学习相关文章并根据特定方式对这些文献进行分类。此外除了第2节中介绍的深度学习基础之外,我们还提供了公共数据集(请参见表6)和公共代码(请参见表7)的摘要,旨在为新手提供良好的阅读基础。主题并鼓励未来的贡献。更重要的是,我们提供了有关当前研究状况(第3.4节)以及未来工作的挑战和潜在方向(第4节)的深入讨论。

搜索标准:为确定相关贡献查询了Scopus和PubMed之类的搜索引擎以查找标题或摘要中包含(“卷积”或“深度学习”),(“心脏”)和(“图像分割”)的论文。 此外根据论文标题搜索了MICCAI,ISBI和EMBC的会议记录。最后排除了主要关注点不在图像分割问题的论文。 收录论文的最新更新是在2019年8月1日。

深度学习基础

深度学习模型是深度人工神经网络。 每个神经网络由一个输入层,一个输出层和多个隐藏层组成。 在以下部分中,我们将回顾几种先进的分割算法中常用的深度学习网络和关键技术。 有关深度学习的数学背景和基础知识的更详细和透彻的说明,请感兴趣的读者参考Goodfellow(2016)。

2.1 神经网络

在本节中,我们首先介绍基本的神经网络架构,然后简要介绍构建模块,这些构建模块通常用于增强网络学习对图像分割有用的能力。

2.1.1 卷积神经网络

在这一部分中,我们将介绍卷积神经网络(CNN),这是用于图像分析的最常见的深度神经网络类型。 CNN已成功应用于许多图像分类,目标检测和分割任务的最新技术发展。

CNN模型示例图

如图3A所示,标准CNN由输入层、输出层和功能层的堆栈组成,它们之间以特定形式(例如向量)将输入转换为输出。这些功能层通常包含卷积层,池化层和全连接层。通常每个卷积核是一个n×nn×n的核(用于2D输入)或n×n×nn×n×n核(用于3D输入),之后将输出传递给非线性激活函数(例如ReLU)再辅以批归一化(Ioffe和Szegedy,2015),这样就从图像中提取特征图。然后这些特征图将通过池化层(通常是2倍)进行下采样消除了多余的特征,提高统计效率和模型概括性。其后通过全连接层减小特征维度并找到与任务最相关的特征以进行推理。网络的输出是固定大小的向量,其中每个元素可以是每个类别的概率得分(用于图像分类),回归任务的实际值(例如左心室容积估计)或一组值(例如用于物体检测和定位的边界框的座标)。

通常,将卷积核n的大小选择为通常较小,例如n=3n = 3,以减少计算成本。 尽管核很小,但可以通过增加卷积层的数量来增加接收场(可能影响特定卷积核/神经元激活的输入图像区域)。 例如,具有7×7内核大的卷积层可以由具有3×3内核小的三层替换。 参数数量减少了72/(3×(32))27^2 / (3×(3^2))≈2,而接收场保持不变(7×7)(7×7)。 这里引用了在线资源[2],该资源[2]通过更改隐藏层的数量和内核的大小来说明并可视化接收场的变化。 通常,增加卷积神经网络的深度(隐藏层的数量)以扩大接收场可以导致模型性能的提高,例如分类准确性(Simonyan and Zisserman,2015)。

如图3B所示,用于图像分类的CNN也可用于图像分割应用,而无需对网络体系结构进行重大改动(Ciresan和Giusti,2012年)。但是,这需要将每个图像划分为小块,然后训练CNN以预测每个小块的中心像素的类标签。这种基于图块的方法的主要缺点是,尽管存在由于映像中多个补丁重叠而导致大量冗余的事实,但在推理时仍必须为每个补丁单独部署网络。由于效率低下,具有完全连接层的CNN的主要应用是对象定位,目的是估计图像中感兴趣对象的边界框。该边界框然后用于裁剪图像,形成图像预处理步骤以减少分割的计算成本(Avendi等,2016)。为了进行有效的端到端像素级分割,将更广泛地使用称为全卷积神经网络(FCN)的CNN变体,这将在下一部分中进行讨论。

2.1.2 全卷积神经网络

FCN的想法最早由Long, 2015提出用于图像分割。 FCN是一种特殊的CNN,没有任何完全连接的层。 通常如图4A所示,FCN设计为具有编码器/解码器结构,以便它们可以接收任意大小的输入并生成相同大小的输出。 给定输入图像,编码器首先将输入转换为高级特征表示,而解码器解释特征图,并通过一系列转置的卷积和卷积操作将空间细节恢复回图像空间,以进行像素级预测。 这里,转置的卷积通常用于将特征图按比例放大2倍。这些转置的卷积也可以由解池层和上采样层代替。 与用于分割的基于补丁的CNN相比,FCN经过训练并应用于整个图像,从而无需选择图块(Shelhamer 2017)。

在这里插入图片描述

具有图4A中简单编码器-解码器结构的FCN可能会被限制为精确分割图像而捕获图像中的详细上下文信息,因为某些特征可能会被合并消除
编码器中的图层。为了提高分割精度,已经提出了FCN的几种变体,以将特征从编码器传播到解码器。用于生物医学图像分割的FCN最著名和​​最受欢迎的变体是U-net(Ronneberger和Brox,2015)。基于香草FCN(Long等人,2015),U-net在编码器和解码器之间采用跳过连接来恢复下采样路径中的空间上下文损失,从而产生更精确的分段(见图4B)。几种最先进的心脏图像分割方法都采用了U-net或其3D变体,3D Unet(C¸ic¸ek等人,2016)和3D V-net(Milletari等人, 2016年)作为其骨干网络,在许多心脏分割任务中实现了有希望的分割精度(Tao等人,2019年; Isensee等人,2017年; Xia等人,2018年)。

将U-net或其3D变体3D Unet(C¸ic¸ek等,2016)和3D V-net(Milletari等,2016)作为骨干网,实现了有希望的分割精度 许多心脏分割任务(Tao等人,2019; Isensee等人,2017; Xia等人,2018)。

2.1.3 循环神经网络

在这里插入图片描述

递归神经网络(RNN)是另一种类型的人工神经网络,用于顺序数据,例如电影MRI和超声图像序列。 RNN可以“记住”过去,并使用从过去学到的知识来做出当前的决定,请参见图5。例如,给定一系列图像,RNN会以第一幅图像作为输入,捕获信息以做出决定。 预测,然后存储此信息,然后将其用于对下一幅图像进行预测。 RNN系列中使用最广泛的两种架构是LSTM(Hochreiter和Schmidhuber,1997)和门控循环单元(GRU)(Cho等人,2014),它们能够对长期记忆进行建模。 心脏分割的一个用例是将RNN与2D FCN组合在一起,以便组合后的网络能够从相邻切片中捕获信息以改善分割结果的切片间一致性(Poudel等人,2016)。

2.1.4 自编码器

在这里插入图片描述

自动编码器(AE)是一种神经网络,旨在从数据中学习紧凑的潜在表示而无需监督。 自动编码器的典型体系结构由两个网络组成:用于重构输入的编码器网络和解码器网络,请参见图6。由于学习到的表示形式通常包含原始数据中的有用信息,因此许多研究人员已采用自动编码器来提取 一般语义特征或来自输入图像或标签的形状信息,然后使用这些特征指导心脏图像分割(Oktay等人,2016; Schlemper等人,2018; Yue等人,2019)。

2.1.5 生成对抗网络

在这里插入图片描述

生成对抗网络(GAN)的概念由Goodfellow等提出。 (2014)进行噪声图像合成。 GAN是一类生成模型,可学习对真实数据的数据分布进行建模,从而能够创建新的图像示例。如图7A所示,GAN由两个网络组成:生成器网络和鉴别器网络。在训练过程中,两个网络都经过了相互竞争的训练:生成器生成旨在欺骗鉴别器的伪图像,而鉴别器则试图从伪图像中识别真实图像。这种训练称为“对抗训练”,因为这两种模式都旨在赢得比赛。该训练方案也可以用于训练分割网络。如图7B所示,将生成器替换为分段网络,并要求鉴别器将生成的分段图与地面真实地图(目标分段图)区分开。通过这种方式,鼓励分割网络生成更多解剖学上合理的分割图(Luc等人,2016; Savioli等人,2018)。

2.1.6 先进的构建模块可改善细分

在这里插入图片描述
医学图像分割是定量分析和临床研究的重要步骤,需要逐像素精度。 在过去的几年中,许多研究人员已经开发出高级的构建基块,以学习鲁棒的,具有代表性的特征以进行精确的分割。 这些技术已广泛应用于最新的神经网络(例如U-net),以改善心脏图像分割性能。 因此,我们确定了为此目的在文献中报道的几种重要技术,并为它们提供了相应的参考资料以供进一步阅读。 这些技术是:

  1. 用于隐藏层中多尺度特征聚合的高级卷积模块:
    • 初始模块(Szegedy等,2015),见图8A;
    • 扩展的卷积核(Yu和Koltun,2016年);
    • 深度监督(Lee等人,2015);
    • 多孔空间金字塔池化(Chen等,2017);
  2. 自适应卷积内核旨在关注以下重要特征:
    • 注意单位(Vaswani等,2017),见图8B;
    • 挤压和激励块(Hu等,2018);
  3. 层间连接旨在重用先前层中的功能:
    • 残余连接(He等,2016),见图8C;
    • 紧密的联系(Huang等,2017)。

2.2 训练神经网络

在能够进行推理之前,必须训练神经网络。 此训练过程需要一个包含成对的图像和用于训练和测试的标签{x,y}的数据集,一个优化器(例如,随机梯度下降,Adam)和一个损失函数来更新模型参数。 此功能解决了训练期间每次迭代中网络预测的错误,从而为优化器提供了通过反向传播更新网络参数的信号。 培训的目标是找到适当的价值
网络参数以最小化损耗功能。

2.2.1 通用损失函数

对于回归任务(例如心脏定位,钙评分,界标检测,图像重建),最简单的损失函数是均方误差(MSE):

其中y ^ i是目标值的向量,yˆi是预测值的向量; n是数据样本数。

交叉熵是图像分类和分割任务中最常见的损失。 特别是,对于每个类别c,用于分割的交叉熵损失总结了预测概率输出p及其对应的目标分割图y之间的逐像素概率误差:

交叉熵是图像分类和分割任务中最常见的损失。 特别是对于每个类别c,用于分割的交叉熵损失总结了预测概率输出p及其对应的目标分割图y之间的逐像素概率误差:

其中C是所有类别的数目。 专为对象分割而设计的另一个损失函数称为soft-Dice损失函数(Milletari等人,2016),它在像素级别上惩罚了预测的分割图与其目标图之间的不匹配:

此外,交叉熵或软骰子损失有多种变体,例如加权交叉熵损失(Jang 2017; Baumgartner 2017)和加权软骰子损失(Yang 2017c; Khened 2019),用于解决医学图像分割任务中潜在的类别不平衡问题,其中损失项被加权以考虑稀有类别或小物体。

2.2.2 减少过拟合

训练深层网络进行医学图像分析的最大挑战是过度拟合,这是因为与深层网络中可学习的参数数量相比,训练图像的数量通常有限。 已经开发出许多技术来减轻该问题。 其中一些技术如下:

  • 权重初始化(He等,2015)和权重正则化(即L1 / L2正则化)
  • 辍学(Srivastava等,2014)
  • 合奏学习(Kamnitsas等,2017a)
  • 通过仿射变换人工生成训练样本来增强数据
  • 通过对现有大型数据集进行预训练的模型进行转移学习

为了定量评估自动分割算法的性能,通常使用三种类型的指标:a)基于体积的指标(例如Dice指标,Jaccard相似性指标); b)基于表面距离的度量(例如平均轮廓距离,Hausdorff距离); c)临床表现指标(例如,心室容积和质量)。 有关心脏图像分析中常用临床指标的详细说明,我们建议使用Peng等人的综述文章。 (2016)。 在本文中,我们主要根据Dice指标报告方法的准确性,以便于比较。 Dice分数用于衡量两个结果之间的重叠率(例如,自动细分与手动细分),范围从0(不匹配)到1(完全匹配)。

3.深度学习用于心脏图像分割

在本节中,我们提供了针对三种主要成像方式(基于MRI,CT和US)的基于深度学习的应用程序的摘要,其中涉及针对目标结构的特定应用程序。通常,这些基于深度学习的方法提供了一种有效且有效的方式,可以以不同的方式分割特定的器官或组织(例如LV,冠状动脉,疤痕),从而有助于对心血管结构和功能进行后续定量分析。在这些工作中,这些方法的很大一部分是针对心室分割而设计的,尤其是在MR和US域。心室分割的目的是描绘左室和/或右室的心内膜和心外膜。这些分割图对于得出临床指标很重要,例如左心室舒张末期容积(LVEDV),左心室舒张末期容积(LVESV),右心室舒张末期容积(RVEDV),右心室舒张末期容积(RVESV)和EF。此外,这些分割图对于3D形状分析(Xue 2018; Biffi 2018),3D +时间运动分析(Zheng 2019)和生存预测(Bello 2019)。

3.1 心脏MR图像分析

心脏MRI是一种非侵入性成像技术,可以可视化心脏内部和周围的结构。 与CT相比,它不需要电离辐射。 相反,它依靠磁场和射频波来激发心脏中的氢核,然后通过测量其响应来生成图像。 通过利用不同的成像序列,心脏MRI可以准确量化心脏的解剖结构和功能(例如电影成像)以及诸如疤痕的病理组织(晚期late增强(LGE)成像)。 因此,心脏MRI目前被认为是定量心脏分析的金标准(Van Der Geest and Reiber,1999)。

表1中显示了一组基于深度学习的代表性MR分割方法。从表中可以看出,大多数工作都集中在分割心腔(例如LV,RV,LA)上。 相反,分割异常心脏组织区域(如心肌疤痕和心房纤维化)的工作相对较少。 这可能是由于相关的公共数据集有限以及任务困难。 此外,就我们所知,很少有将深度学习技术应用于心房壁分割的工作,正如最近的一项调查论文所建议的那样(Karim等人,2018)。 在以下各节中,我们将详细描述和讨论有关不同应用程序的这些方法。

3.1.1 心室分割

基于普通FCN的分割技术:Tran(2016)是最早应用FCN的分割技术(Shelhamer 2017),可在短轴心脏磁共振(MR)图像上直接分割左心室,心肌和右心室。他们基于FCN的端到端方法实现了有竞争力的分割效果,在速度和准确性方面均大大优于传统方法。在接下来的几年中,已经提出了许多基于FCN的工作,旨在进一步提高分割效果。在这方面,一项工作流专注于优化网络结构以增强用于分割的特征学习能力(Khened,2019; Li,2019b; Zhou和Yang,2019; Zhang, 2019a; Cong和Zhang,2018; Jang,2017; Fahmy,2019)。例如,Khened(2019)开发了一个具有初始模块的密集U-net,以结合多尺度特征以在具有较大解剖变异性的图像之间进行鲁棒分割。 Jang (2017);杨(2017c);桑德(2019); Chen(2019e)研究了不同的损失函数,例如加权交叉熵、加权Dice损失、深度监督损失和焦点损失,以提高分割性能。在这些基于FCN的方法中,大多数方法使用2D网络而不是3D网络进行分割。这主要是由于大多数心脏MR扫描的典型低通板分辨率和运动伪影,这限制了3D网络的适用性(Baumgartner,2017)。

引入空间或时间上下文:使用2D网络进行心脏分割的一个缺点是这些网络逐片工作,因此它们不利用任何片间依存关系。 结果,二维网络可能无法在挑战性切片(例如心室轮廓未很好定义的顶端和基础切片)上定位和分割心脏。 为了解决这个问题,许多工作试图引入附加的上下文信息来指导2D FCN。 该上下文信息可以包括从标签或多视图图像中获悉的形状先验(Zotti,2017,2019; Chen,2019b)。 其他人则使用循环神经网络(RNN)或多层切片网络(2.5D网络)从相邻切片中提取空间信息以辅助分割(Poudel,2016; Patravali,2017; Du,2019; Zheng,2018)。这些网络还可以用于在心动周期的不同时间范围内利用信息来改善分割结果的时空一致性(Yan,2018; Savioli,2018; Du,2019; Qin,2018a; Wolterink,2017c)。

应用解剖约束:可能会限制2D和3D FCN的分割性能的另一个问题是,它们通常仅使用逐像素损失函数(例如交叉熵或软骰子损失)进行训练。 这些基于像素的损失函数可能不足以学习表示基础解剖结构的特征。 因此,几种方法集中于设计和应用解剖学约束来训练网络以提高其预测准确性和鲁棒性。 这些约束条件表示为正则化项,其中考虑了拓扑结构(Clough等人,2019),轮廓和区域信息(Chen等人,2019g)或形状信息(Oktay等人,2018a; Yue等人, 2019),鼓励网络生成更多解剖学上合理的分割。 除了在训练时使网络正规化,Painchaud等人。 (2019)提出了一种变分AE,以在后期处理阶段纠正不准确的细分。

在这里插入图片描述
多任务学习:研究人员也在探索使用多任务学习来规范化基于FCN的心室分割,通过在训练阶段执行与主要任务相关的辅助任务例如运动估计(Qin,2018b)、心功能估计(Dangi,2018b),心室大小分类(Zhang,2018b)和图像重建(Chartsias,2018; Huang,2019)。同时为多个任务训练网络会鼓励网络提取对这些任务有用的功能,从而提高学习效率和预测准确性。

多阶段网络:近年来研究人员对在多阶段管道中应用神经网络越来越感兴趣,这需要将分割问题分解为子任务(Vigneault,2018; Zheng,2018; Li,2019a;Tan,2017;Liao,2019)。例如,Zheng(2018)、 Li(2019a)提出了感兴趣区域(ROI)本地化网络后接图像分割网络。 同样Vigneault(2018)提出了一个名为Omega-Net的网络,该网络由用于心室定位的U-net,可标准化图像方向的可学习转换模块以及用于细粒度分割的一系列U-net组成。通过显式定位ROI并将输入图像旋转为规范的方向,所提出的方法可以更好地推广到具有不同大小和方向的图像。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章