论文阅读—图像分割方法综述(三)(arXiv:[cs:cv]20200410)

前面介绍了分割领域常用网络架构及其相应的分割模型,本节主要介绍一些最受欢迎的图像分割数据集及其特征。此外还有评估基于深度学习的分割模型的常用指标。并报告了这些模型的定量结果和实验性能。

系列回顾

论文阅读—图像分割方法综述(一)(arXiv:[cs:cv]20200410)
论文阅读—图像分割方法综述(二)(arXiv:[cs:cv]20200410)

5、IMAGE SEGMENTATION DATASETS

在本节中,我们提供一些最广泛使用的图像分割数据集的摘要。 我们将这些数据集分为3类-2D图像,2.5D RGB-D(颜色+深度)图像和3D图像-并提供有关每个数据集特征的详细信息。 列出的数据集具有逐像素标签,可用于评估模型性能。

值得一提的是,其中一些工作使用数据增强来增加标记样本的数量,特别是处理小型数据集的样本(例如在医学领域)。 数据扩充用于通过对图像(即输入图像和分割图)应用一组转换(在数据空间或特征空间中,有时有时在这两者中)来增加训练样本的数量。Some typical transformations include translation, reflection, rotation, warping, scaling, color space shifting, cropping, and projections onto principal components ,事实证明,数据增强可以提高模型的性能,尤其是从有限的数据集(例如医学图像分析中的数据集)学习时。 在产生更快的收敛速度,减少过度拟合的机会并增强泛化性方面也可能是有益的。 对于某些小型数据集,数据增强已显示将模型性能提高20%以上。

5.1 2D Datasets

大多数图像分割研究都集中在2D图像上。因此,可以使用许多2D图像分割数据集。以下是一些最受欢迎的内容:

PASCAL VOC: 是计算机视觉中最流行的数据集之一,其带注释的图像可用于5个任务-分类,分割,检测,动作识别和person layout。文献中报道的几乎所有流行的分割算法都已对此数据集进行了评估。对于细分任务,有21类对象标签-车辆,家庭,动物,飞机,自行车,船,公共汽车,汽车,摩托车,火车,瓶子,椅子,餐桌,盆栽植物,沙发,电视/显示器,鸟,猫,牛,狗,马,绵羊和人(如果像素不属于任何此类,则将其标记为背景)。该数据集分为训练和验证两套,分别具有1,464和1,449张图像。 有一个针对实际挑战的私人测试仪。图43显示了示例图像及其按像素标记。
在这里插入图片描述
PASCAL Context: 是PASCAL VOC 2010检测挑战的扩展,它包含所有训练图像的逐像素标签。 它包含400多个类(包括原始的20个类以及PASCAL VOC分割的背景),分为三类(objects, stuff, and hybrids)。 此数据集的许多对象类别太稀疏,因此,通常会选择59个常见类别的子集来使用。 图44显示了此数据集的三个样本图像的分割图。
在这里插入图片描述

Microsoft Common Objects in Context (MS COCO):是另一种大规模的目标检测,分割和场景描述的数据集。 COCO包含日常复杂场景的图像,其中包含自然环境中的常见对象。 该数据集包含91种对象类型的照片,并以328k图像的形式总共标记了250万个实例。 它主要用于分割单个对象实例。 图45显示了MS COCO标签与给定样本图像的先前数据集之间的差异。 检测挑战包括80多个类别,提供超过82k图像进行训练,40.5k图像进行验证以及测试集超过80k图像。
在这里插入图片描述

Cityscapes: 是一个大型数据库,专注于对城市街道场景的语义理解。 它包含一组来自50个城市的街道场景中记录的立体声视频序列,以及一组20k弱注释帧,以及5k帧的高质量像素级注释。 它包括30个类别的语义和密集像素注释,分为8类-平面,人,车辆,建筑物,物体,自然,天空和空隙。 图46显示了来自该数据集的四个样本分割图。
在这里插入图片描述

SiftFlow: 包括来自LabelMe数据库子集的2688个带注释的图像。 256x256像素的图像基于8种不同的室外场景,其中包括街道,山脉,田野,海滩和建筑物。 所有图像都属于33个语义类别之一。

Stanford background: 包含来自现有数据集(如LabelMe,MSRC和PASCAL VOC)的场景的室外图像。 它包含715张具有至少一个前景对象的图像。 数据集按像素进行注释,可用于语义场景理解。 使用Amazon的Mechanical Turk(AMT)获得了该数据集的语义和几何标签。

Berkeley Segmentation Dataset(BSD):包含来自30个人类受试者的1,000个Corel数据集图像的12,000个手工标记的分割。 目的在于为图像分割和边界检测研究提供经验基础。 一半的分割是通过向对象呈现彩色图像获得的,另一半是通过呈现灰度图像获得的。 基于此数据的公共基准包括300张图像的所有灰度和颜色细分。 图像分为200个图像的训练集和100个图像的测试集。

Youtube-Objects: 包含从YouTube收集的视频,其中包括十个PASCAL VOC类(飞机,鸟,船,汽车,猫,牛,狗,马,摩托车和火车)的对象。 原始数据集不包含逐像素注释(因为它最初是为对象检测而开发的,具有弱注释)。 但是Jain等 [149]手动注释126个序列的子集,然后提取帧的子集以进一步生成语义标签。 此数据集中总共有约10,167个带注释的480x360像素帧。

KITTI : 是最流行的移动机器人技术和自动驾驶数据集之一。 它包含15个小时的交通场景视频,并以各种传感器模式(包括高分辨率RGB,灰度立体摄像头和3D激光扫描仪)进行记录。 原始数据集不包含用于语义分割的真实标签,但是研究人员出于研究目的手动注释了数据集的各个部分。 例如,Alvarez等从道路检测挑战中生成了323个图像的地面真相,包括道路,垂直和天空3类。

Other Datasets are available for image segmentation purposes too, such as Semantic Boundaries Dataset (SBD)[152], PASCAL Part [153], SYNTHIA [154], and Adobes Portrait Segmentation [155].

5.2 2.5D Datasets

随着affordable范围扫描仪的出现,RGB-D图像在研究和工业应用中都变得越来越流行。 以下RGB-D数据集是最受欢迎的一些:

NYU-D V2 : 由Microsoft Kinect的RGB和深度相机记录的各种室内场景的视频序列组成。 它包括来自3个城市的450多个场景中的1,449张密集标记的RGB和深度图像对。 每个对象都标有一个类别和一个实例编号(例如cup1,cup2,cup3等)。它还包含407,024个未标记的帧。 与其他现有数据集相比,该数据集相对较小。 图47显示了样本图像及其分割图。
在这里插入图片描述
ScanNet : 是RGB-D视频数据集,在1,500多次扫描中包含250万个视图,并以3D相机姿势,表面重建和实例级别语义分割进行注释。 为了收集这些数据,设计了一个易于使用且可扩展的RGB-D捕获系统,该系统包括自动表面重建,并且语义标注是众包的。 使用这些数据有助于在一些3D场景理解任务上实现最先进的性能,包括3D对象分类,语义体素标注和CAD模型检索。

此外还有SUN-3D、SUN RGB-D、UW RGB-D Object Dataset等数据集

5.3 3D Datasets

3D图像数据集在机器人,医学图像分析,3D场景分析和建筑应用中很受欢迎。 通常通过网格或其他体积表示(例如点云)提供三维图像。 在这里,我们提到了一些流行的3D数据集。

Stanford 2D-3D: 该数据集提供了2D,2.5D和3D域中的各种相互注册的模态,带有实例级语义和几何注释[161],并收集在6个室内区域中。 它包含70,000多个RGB图像,以及相应的深度,表面法线,语义注释,全局XYZ图像以及相机信息。

ShapeNet Core: ShapeNetCore is a subset of the full ShapeNet dataset [162] with single clean 3D models and manually verified category and alignment annotations [163]. It covers 55 common object categories with about 51,300 unique 3D models.

Sydney Urban Objects Dataset: This dataset contains a variety of common urban road objects, collected in the central business district of Sydney, Australia. There are 631 individual scans of objects across classes of vehicles,pedestrians, signs and trees [164].

6、PERFORMANCE REVIEW

在本节中,我们首先总结了一些用于评估分割模型性能的流行指标,然后提供流行数据集上有前途的基于DL的分割模型的定量性能。

6.1 Metrics For Segmentation Models

理想情况下,应该从多个方面评估模型,例如定量精度,速度(推断时间)和存储要求(内存占用)。 测量速度可能很棘手,因为它取决于硬件和实验条件,但是它是实时应用中的重要因素,如果模型用于内存容量有限的小型设备,则内存占用空间也很重要。 但是,到目前为止,大多数研究工作都集中在评估模型准确性的指标上。 下面我们总结了用于评估细分算法准确性的最受欢迎指标。 尽管使用定量指标来比较基准上的不同模型,但是模型输出的视觉质量在决定哪种模型最好时也很重要(因为人类是为计算机视觉应用开发的许多模型的最终使用者)。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

6.2 Quantitative Performance of DL-Based Models

在本节中,我们列出了一些基于常用分割基准上几种算法的性能。 值得一提的是,尽管大多数模型在标准数据集上报告其性能并使用标准指标,但其中一些未能做到这一点,从而难以进行全面比较。 此外,只有一小部分publications以可重现的方式提供其他信息,例如执行时间和内存占用,这对于可能运行的分割模型(例如无人机,自动驾驶汽车,机器人等)的工业应用很重要。 在有限的计算能力和存储能力的嵌入式消费类设备上,使快速,轻便的模型变得至关重要。
在这里插入图片描述
在这里插入图片描述

参考文献

1、J. Long, E. Shelhamer, and T. Darrell, ?Fully convolutional networks for semantic segmentation,? in Proceedings of the IEEE conference on computer vision and pattern recognition, 2015, pp. 3431? 3440.
2、L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille, “Semantic image segmentation with deep convolutional nets and fully connected crfs,” arXiv preprint arXiv:1412.7062, 2014.
3、L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L.Yuille, ?Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs,? IEEE transactions on pattern analysis and machine intelligence, vol. 40, no. 4,pp. 834?848, 2017.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章