semantic3d.net:a new large-scale point cloud classification benchmark(学习笔记一)

前言

在此之前看过的点云论文都是看一篇是一篇,未尝写过博客记录下学习心得,时间久了自己都记不得内容了,前段时间看到舍弟写的博客,遂觉自己也有必要将所看论文写成博客记录所获心得。本篇博客是将英文论文翻译成中文。以下为全文汉译。
未完待续,更新中……

semantic3d网:一种新的大规模点云分类基准

Timo Hackela, Nikolay Savinovb, Lubor Ladickyb, Jan D. Wegnera, Konrad Schindlera, Marc Pollefeysb
a IGP, ETH Zurich, Switzerland - (timo.hackel, jan.wegner, konrad.schindler)@geod.baug.ethz.ch
b CVG, ETH Zurich, Switzerland - (nikolay.savinov, lubor.ladicky, marc.pollefeys)@inf.ethz.ch

摘要

本文提出了一种新的三维点云分类基准数据集,该数据集包含40多亿个人工标注的点,可作为数据饥渴(deep)学习方法的输入。我们也仔细认真的讨论了第一次提交的用于深层卷积神经网络的基准,这些基准相比于最先进的成果,已经展现出了卓越的性能提升。卷积神经网络已经成为计算机视觉和机器学习许多任务的实际标准,比如图像中的语义分割或目标检测,但由于缺乏训练数据,三维点云标记任务尚未取得真正突破。用本文提供的大量数据集,我们旨在缩小这个数据缺口,以帮助释放深度学习方法在三维标记任务上的全部潜力,我们的三维语义网络数据集由地面激光扫描仪获取的稠密点云组成,它包含8个语义类并且涵盖了广泛的城市户外场景:教堂、接到、铁路轨道、广场、村庄、足球场和城堡。我们描述了我们的标签接口,并且展示了我们的数据提供了更加稠密和完整的点云,而且相比于在研究社区已经获取到的数据,我们的数据标记点的总体数量要更高。我们进一步提供基线方法的说明和其与提交到我们在线系统的方法之间的比较。我们希望三维语义网络能够铺平深度学习方法在三维点云标注方面的道路,从而学习更丰富、更通用的三维表现形式,而仅仅几个月后的第一次提交就表明情况可能确实如此。

1.绪论

自(Krizhevsky et al., 2012)的开创性论文以来,深度学习已经取得惊人的再次流行,该论文再现了(福岛,1980年,LeCun et al., 1989年)的早期工作。特别是深度卷积神经网络(CNN)已经迅速成为一系列基于学习的图像分析任务的核心技术。在计算机视觉和机器学习方面绝大多数的先进方法都将CNNs作为它们的重要组成部分之一。它们在图像解译任务中的成功主要归功于(i)易于并行的网络架构,这种网络架构便于在单GPU上训练数百万张的图像。(ii)可以获取大型公共基准数据集,比如关于rgb图像的ImageNet(Deng等人,2009年,Russakovsky等人,2015年)和Pascal VOC(Everingham等人,2010年)数据集,或者针对rgb-d数据的SUN rgb-d(Song等人,2015)数据集。

虽然CNNs在图像解译方面有一个伟大的成功史,但在三维点云解译方面就不那么成功了。对于三维点云来说,使得点云的监督学习变得困难的原因是每个数据集拥有数百万个点的规模,并且这些点是不规则,非网格对齐的,在一些具有非常稀疏结构的位置处,还伴随着强烈的点密度变化(如图1)。

在这里插入图片描述
虽然现在的记录是直接的,但是主要的瓶颈是生成足够多的人工标注训练数据,这是当代机器学习(深度学习)学习好的模型所必需的,它可以很好地推广到新的、未见过的场景。由于额外的维度,在三维空间中的分类器参数规模要比在二维空间中的规模更大,并且特殊的三维效果,比如遮挡或点密度的变化,导致完全相同的输出类别有许多不同的形态。这使得训练好的通用分类器分类效果变差,并且在三维空间中我们通常需要比二维空间更多的训练数据。相比于图像,即使是未经训练过的用户也能很容易的对图像进行注解,而三维点云则更难去解译。浏览三维点云更加的耗时,而且剧烈的点密度变化加重了对场景的解译。

为了加速点云处理的强大算法的开发,我们提供了(我们所知道的)所收集的迄今规模最大的地面激光扫描数据,该数据附有单点级地面真实语义的标注。总计有超过4×109个点和8个类的类标签。数据集被分成大小大致相同的训练集和测试集。扫描是有挑战性的,不仅是因为它们每条扫描线上高达约4×108个点,而且还因为它们的高测量分辨率和长测量范围,导致极端的密度变化和大面积的遮挡。为了方便使用基准测试,我们不仅提供免费可用的数据,还提供一个自动的在线提交系统以及公开提交方法的结果。该基准还包括基准线,一个遵循基于特征值的多尺度特征提取标准范式,然后使用随机森林进行分类,另一个遵循基本的深度学习方法。此外,第一次提交的基准,我们也简要讨论。

2.相关工作

基准工作在地理空间数据社区,特别是在ISPR中有着悠久的传统。最近的工作包括,例如,ISPRS-EuroSDR高密度航空图像匹配3基准,旨在评估倾斜航空图像的密集匹配方法(Haala,2013Cavegn等人,2014),以及ISPRS城市目标检测和重建基准测试,其中包含了一些不同的挑战,如航空图像的语义分割和三维物体重建(Rottensteiner等人,2013)。

在计算机视觉中,包含数百万张图像的非常大规模的基准数据集已经成为基于学习的图像解译任务的标准。已经引入了各种数据集,其中许多是为特定任务量身定制的,有些是连续几年作为年度挑战的基础数据集(例如ImageNet、Pascal VOC)。旨在促进研究图像分类和目标检测的数据集在很大程度上依赖于从互联网上下载的图像。基于网络的图像一直是基准发展的的主要驱动力,因为不需要为数据集的生成完成昂贵的、专门的摄影活动。虽然这使得可以把基准图像从数百张扩展到数百万张,但是通常给这些图像的注释都很弱,必须考虑大量的标签噪声。此外,人们可以假设,互联网图像构成了一个非常普遍的图像集合,对特定传感器、场景、国家、目标等的偏袒较小,这使得能够训练出更丰富的,泛化更好的模型。

最早成功的大规模图像目标检测尝试之一是超过8000万张小图像(32×32像素)的tinyimages(Torralba等人,2008年)。图像语义分割的一个里程碑和仍然广泛使用的数据集是著名的Pascal VOC(Everingham et al.,2010)数据集和挑战,它被用于训练和测试当今许多著名的、最先进的算法,如(Long et al.,2015,Badrinarayanan et al.,2015)。另一个比较新的数据集是MSCOCO4,它包含3万个带有注释的图像,这些注释顾及到了上下文图像分割,目标识别和给图像添加说明文字。当今计算机视觉中最流行的基准之一是ImageNet数据集(Deng等人,2009年,Russakovsky等人,2015年),它使卷积神经网络在计算机视觉中开始流行起来(Krizhevsky等人,2012年)。它包含根据词汇网络层次结构组织的超过14×106张图像,其中单词被按照认知同义词分组。

微软Kinect推出了流行的低成本游戏设备,由此产生了几个大型rgb-d图像数据库。流行的例子是纽约大学深度数据集V2(Silberman等人,2012年)或SUN RGB-D(Song等人,2015年),它们为对象分割和场景理解提供标记的RGB-D图像。与激光扫描仪相比,低成本的结构光rgb-d传感器具有更短的测量范围、更低的分辨率,并且由于太阳光的红外光对投影的传感器模式的干扰,因此rgb-d传感器在室外工作状态很差。

据我们所知,至今不存在公开可用,且同前文所述视觉基准规模大小的激光扫描数据集。因此,许多最近为体素网格所设计的卷积神经网络(Brock et al.,2017,Wu et al.,2015)使用了从CAD模型人工生成的数据——ModelNet(Wu et al.,2015),它是一个相当小的人造数据集。因此,最近的集成方法(例如(Brock等人,2017))在ModelNet10上达到97%以上的性能,这清楚地表明由于数据有限,模型过拟合了。

这些现有的少量激光扫描数据集主要是通过移动道路测量设备或机器人(如DUT1(Zhuang等人,2014)、DUT2(Zhuang等人,2015)或KAIST(Choe等人,2013)获得的,这些数据集较小(<107点),并且不可公开获取。公开可获取的激光扫描数据集包括奥克兰数据集(Munoz等人,2009年)(小于2×106点)、悉尼城市物体数据集(Deuge等人,2013年)、巴黎街夫人数据库(Serna等人,2014年)和来自IQmulus&TerraMobilita竞赛的数据(Vallet等人,2015年)。它们都有一个共同点,那就是使用移动道路测量车获取的三维激光雷达数据,这种车提供的点密度比我们这种典型的静态扫描要低得多。它们的数据量也相对较小,以致于监督学习算法很容易过拟合。目前大多数可用的点云数据集都没有经过一个全面、透明的评估,该评估可在互联网上公开、不断更新,并列出所有提交的基准。

使用本文中提出的semantic3D.net基准,我们旨在缩小这一差距。它提供了最大的有标签的三维点云数据集,大约有40亿个人工标记的点,且附有噪声评价,并不断更新提交的内容。这是第一个全面支持在真正的三维激光扫描数据上进行深度学习的数据集,它里面每个点都具有有高质量的人工分配的标签。

3.目标

给定一组点(这里:来自于静态地面激光扫描仪的密集扫描),我们希望为每个点推断出一个单独的类标签。我们提供了三种基线方法,用于代表最近用于该任务的典型分类方法。

i)二维图像基线:

许多最先进的激光扫描仪也可以为扫描的场景获取颜色值甚至整个彩色图像。彩色图像可以添加可能有助于分类的其他实物证据。首先,朴素基线只对二维彩色图像进行分类,而不使用任何深度信息,从而建立了一个链接到大量关于二维语义图像分割的文献。现代的方法使用深卷积神经网络作为工作的基础。像SegNet(Badrinarayanan等人,2015)这样的编码-解码器架构能够一次推断出整个图像的标签。深层结构也可以与条件随机场(CRF)结合(Chen等人,2016)。我们在第3.1节中的基线方法涵盖了基于图像的语义分割。

ii)三维协方差基线

一种利用三维信息的更加具体的方法是直接处理点云。我们使用最新实现的标准分类管道,即从3D(多尺度)邻域中提取手工制作的特征,并将其输入到判别学习算法中。典型特征基于点邻域的协方差张量(Demantke等,2011)或随机直方图集(Blomley等,2014)来编码表面特性。另外,高度分布可以通过使用圆柱邻域进行编码(Monnier等人,2012年,Weinmann等人,2013年)。第二种基线方法(第3.2节)代表这一类别。

iii)三维卷积神经网络(CNN)基线

将深度学习应用于三维点云是一个相当明显的扩展,它主要使用体素网格来获得规则的邻域结构。为了有效地处理密度变化很大点云中的大规模点邻域,最近的研究使用了自适应邻域数据结构,如八叉树(Wu et al.,2015,Brock et al.,2017,Riegler et al.,2017)或稀疏体素网格(Engelcke et al.,2017)。在第3.3节中,我们第三种基线方法是一个直接实现的基本的三维体素网格卷积神经网络。
在这里插入图片描述图2:第一行:带有标签的地面实况投影成图像。第二行:使用图像基线进行分类的结果。白色:未标记像素,黑色:没有相应三维点的像素,灰色:建筑物,橙色:人造地面,绿色:天然地面,黄色:低植被,蓝色:高植被,紫色:硬景观,粉色:汽车

3.1二维图像基线

我们使用三次幂将扫描线的颜色值转换为单独的图像(没有深度)。Ground truth标签也从点云投影到图像空间,使得三维点标记任务变成二维RGB图像的纯语义图像分割问题(图2)。我们选择关联层次字段方法(Ladicky等人,2013年)进行语义分割,因为它已经证明能够为各种任务(例如(Montoya等人,2014年,Ladicky等人,2014年)提供良好的性能,并且在它的最初实现中是有效的。

该方法的工作原理如下:对四种不同类型的特征texton(Malik et al.,2001)、SIFT(Lowe,2004)、局部量化三值模式(Hussain and Triggs,2012)和自相似性特征(Shechtman and Irani,2007)进行了密集的逐像素提取。使用标准K-均值聚类,每个特征类别分别聚类成512个不同的模型,该模型与典型的词袋表示相对应。对于一幅图像中的每一个像素,特征向量是在200个不同大小的固定矩形集合上的词袋直方图的串联。这些矩形随机放置在像素周围的扩展邻域中。我们使用多类boosting(Torralba et al.,2004)作为分类器,发现最具鉴别能力的弱特征,如(Shotton et al.,2006)论文所述。为了在不丢失锐利对象边界的情况下添加局部平滑,我们在超像素内部进行平滑,并在其边界处支持类转换。按照(Ladicky等人,2013)论文的描述,采用三组由粗到精的参数集合,经过均值偏移(Comaniciu和Meer,2002)提取超像素。利用每个像素的词袋的表现形式所组成的特征向量预测重叠超像素可能的类。如(Kohli等人,2008年)这篇文章提出预先在像素和超像素上面进行平滑,再基于像素和超像素的进行分类的分类器,是以概率的方式在一个条件随机场框架下结合在一起的。关联使用基于移动生成(Boykov等人,2001)图割的算法(Boykov和Kolmogorov,2004)和高阶势的适当图构造(Ladicky等人,2013),找到关联层次优化问题的最可能解。

3.2三维协方差基线

第二个基线的灵感来自(Weinmann等人,2015年)的论文。它利用多尺度特征和判别学习,直接从三维点云中提取类标签。同样,我们可以访问原始实现。该方法使用多尺度邻域的有效近似,即点云被亚采样到多分辨率金字塔中,使得每一层都有恒定的少量邻域捕获多尺度信息。多尺度金字塔是通过采用等间距体素网格滤波方法生成的。

在每一层提取的特征集是Weinmann等人(2013)描述的集合的扩展。它使用每个点邻域协方差的特征值和特征向量的不同组合来获得不同的几何曲面特性。此外,添加了基于竖直圆柱邻域的高度特征,以强调重力方向的特殊作用(假设扫描线向往常一样与垂直方向对齐)。请注意,我们不使用颜色值或扫描仪的强度。这些在点云中并不总是可用的,根据经验我们发现,它们并不能改善方法的结果。作为分类器,我们使用一个随机森林,通过网格搜索和五层交叉检验找到最优参数。详情请参阅(Hackel等人,2016年)。

3.3三维卷积神经网络基线

我们根据最近的VoxNet(Maturana and Scherer,2015)和ShapeNet(Wu etal.,2015)的3D编码思想设计了点云分类任务的基线。管道插图如图3中所示,

4数据

4.1点云标注

5评价

6基准统计

7结论与展望

致谢

引用

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章