一种从单个图像进行深度推断的近似形式的迭代算法(论文2010)

A Close-Form Iterative Algorithm for Depth Inferring from a Single Image

可下载原文:https://cn.bing.com/academic/profile?id=70e9b1bbd0fb28ba591336f01edd2e3e&encoded=0&v=paper_preview&mkt=zh-cn

声明:自己的学习笔记

摘要:

从单个图像中推断深度是计算机视觉中的一个难题,需要充分利用图像中包含的单眼信息。受saxena等人工作的启发,本文提出了一种闭式迭代算法,将多尺度图像分割和深度推断交替进行,可以显著提高分割和深度估计的效果。首先,采用基于em的算法得到初始的多尺度图像分割结果。然后,利用多尺度马尔可夫随机场(mrf)模型,通过有监督学习,推导出不同图像区域的深度和深度之间的关系。其次,应用基于图的区域合并算法,通过合并推断深度,在更大的尺度上合并分割。最后,将多尺度图像分割结果作为mrf模型的输入,并对深度进行了重新推断。上述过程反复进行,直到达到预期结果。由于在迭代过程中,在最细尺度上分割没有变化,它仍然可以捕捉到详细的三维结构。同时,在其他尺度上进行细化分割,将有助于获得更多的全局结构信息。对比实验结果验证了该方法的有效性,该方法可以对saxena数据库中的134幅图像中的62.7%进行定量的深度估计。该方法还可以提高图像分割结果的场景解释能力。此外,本文还对该方法进行了扩展,用以估计具有前向目标的景深。

关键字:深度推断、单目线索、图像分割、马尔可夫随机场、场景重建。

一、介绍

从单个图像中推断三维场景结构是计算机视觉中一个极具挑战性的课题,因为从数学意义上讲,这是一个不适定问题,我们永远无法知道图像是绘画图像还是实际三维环境的图像。然而,人们并不难从一幅图像中推断出场景结构。在这里,人们利用单眼深度线索来推断3d信息,其中包括一些物理现象以及对象的特征,如光照和明暗处理、透视、遮挡、纹理渐变等。

在最近的研究中,研究人员利用这些线索从一幅图像中获取一些3d信息。Saxena等人[1,2,3,4,5]提出了一种基于多尺度单目图像特征推断深度的马尔可夫随机场模型,并将单目深度感知应用于遥控汽车的自主驾驶。霍伊姆等人[6,7,8]在强烈假设场景由地面/水平面和垂直墙(可能还有天空)组成的情况下,使用纹理和透视线索构建弹出模型。基于此,Hoiem等人[9]还提出了一个封闭形式的框架,集成了表面方向、遮挡边界和目标识别,开发了一个三维场景理解系统。但是这种方法不能应用于许多场景,这些场景不仅仅由竖立在水平面上的垂直面构成,比如山、树、屋顶等等。

为了提高深度推断的精度,本文提出了一种闭式迭代算法。在Hoem等人的SouxENA等人的工作中,在假设3D场景由多个小平面构成的前提下,从图像的过分割近似推断出深度。这意味着图像分割和深度推断是相互关联的。图像分割有助于推断不同图像区域深度之间的关系。另一方面,深度也可以作为一个额外的属性来改进分割结果。我们的算法利用了这种互相关特性,交替进行图像分割和深度推断。
正如Saxena等人的工作中所提到的,局部图像特征不足以估计深度,必须使用多尺度图像特征来捕获更多的全局属性。因此,我们采用基于em的多尺度图像分割算法来获得初始分割结果。从多尺度分割中提取的图像特征向量用于推断图像中每个像素的不同深度。推断出的深度被反馈并与图像分割集成到一个认知回路中。特别值得注意的是,深度推断是针对最细尺度上的分割区域,而区域合并则是针对较大尺度上的区域。该方法不会减少由三维场景结构组成的面片数量,能够捕捉到丰富的细节三维场景结构。同时,在较大尺度下的精细分割可以在多个空间尺度上获得更多的全局结构信息,提高深度推断的精度。上述过程反复进行,直到达到预期结果。

通过使用这种紧密形式的迭代框架,我们的算法可以显著提高深度估计的结果。与现有的方法相比,我们的算法可以为134个测试图像中的62.7%个提供更清晰的深度图。使用我们算法的3d-fiythrough重建结果在视觉上也更令人满意。另外,我们的方法可以在场景解释的意义上提高图像分割的效果。
此外,我们还考虑了具有前向对象的场景的深度推断问题。在前向目标垂直于地面的假设下,从图像中提取前向目标区域,并对这些区域的深度推断进行单独处理。在其他区域也被处理之后,深度估计被合并在一起。

本文的其余部分安排如下。相关工作将在第2节中进行审查。第三节介绍了该算法的概况。第4节描述了闭式迭代算法。实验结果见第5节。在第7节结束之前,第6节说明了具有前向对象的场景的深度推断方法。

二、相关工作

在某些特定的场景中,单目线索被应用于执行从单个图像进行深度推断的任务。许多研究者已经研究了相应的问题并提出了一些有效的方法,包括从纹理中提取形状(sft)[11,12]、从阴影中提取形状(sfs)[13,14]和进入图片(tip)[15]。与传统的基于特征匹配和三角剖分的几何方法如立体视觉[16]和运动形状[17]不同,这些方法利用图像中包含的线索来获取丰富的三维信息。然而,这些方法往往忽略了额外的有用线索,并强制要求场景结构简单统一,因此只能在有限的环境中应用。例如,tip方法只能在完全结构化的环境中使用。
近年来,单目线索在获取三维信息方面取得了很大的进展。基于环境是由地面垂直结构构成的假设,Delage等人[18]和Hoiem等人[6,7],通过将图像分为水平/地面和垂直区域(也可能是天空),构建了一个简单的弹出式三维模型。Delage考虑的是室内图像,而Hoiem考虑的是室外场景。基于这些概念,Hoiem等人[10]和Sudderth等人[19]将基于学习的对象识别与三维场景重建集成;Hedau等人。[8]提出了一种恢复杂乱房间空间布局的算法。Saxena等人[1,2,4,5]提出了一种从单眼图像线索推断深度的算法。该算法还成功地应用于提高立体视觉[3]和遥控车自主导航[20]的性能。海茨等人。[21]开发了级联分类模型(ccm),该模型将场景分类、目标检测和三维重建等一系列相关子任务结合在一起,这些任务可以在自己的层次上得到解决并相互帮助。霍伊姆等人[9]将图像的表面方向、遮挡边界和目标识别作为图像的内在特征,提出了一个封闭的场景分析过程接口框架。

我们的工作类似于Heitz等人和Hoiem等人的工作,将图像分割和深度推断的任务结合起来。然而,他们的工作倾向于图像理解,而不是深度推断,他们的算法包含许多步骤,包括目标检测,区域标记等等。此外,它们的算法是基于迭代训练,它需要知道每一步的实现,而我们的算法不需要再训练,并且更灵活地应用在诸如机器人导航的一些特定应用中。

三、我们算法概述

我们提出的算法的概述如图1所示。主要包括图像分割、深度推断和区域合并三个模块。我们的输入数据是多尺度图像分割,由基于em的算法在不同尺度下获得。从这些多尺度分割中,首先通过模板提取图像特征向量。然后,利用多尺度马尔可夫随机场,通过有监督学习,建立图像特征向量与不同深度图像区域之间关系的最优模型。然后将推断出的深度反馈到三维结构中,以合并更大尺度的图像分割。结合最细尺度下的初始分割,得到了精细的多尺度分割结果。在达到预期的深度推断结果之前,重复上述过程。
在这里插入图片描述
这三个模块集成在一个认知回路中。对于每幅图像,区域合并模块接收来自另外两个模块的初始分割和深度信息,并反馈经过改进的多尺度分割。因此,模块交换有助于弥补其个别缺点和提高整体系统性能的信息。我们的算法流程将在以下部分详细介绍。

四、我们算法的框架

4.1.多尺度图像分割

与hoiem等人和saxena等人的工作一样,我们的算法也从将图像分割成许多这样的小平面开始。为了捕捉深度线索直接从局部结构的亮度模式的单目图像,我们使用期望最大化图像分割算法[22],获得初始分割结果。该算法能有效地解决从低层图像特征到曲面重建之间的鸿沟。由于算法的内部工作范围,我们没有详细解释著名的算法,但限制了对算法具体应用的介绍。

创建图像的多尺度分割需要三个步骤。(1)为每个像素选择适当的比例,然后在选定的比例上提取该像素的颜色、纹理和位置特征。(2)通过使用期望最大化的高斯混合模型来模拟像素特征的分布,将像素分组成区域。(3)在多个空间尺度上重复上述两个步骤。

在这种图像分割算法中,像素由8个值组成:颜色3个,纹理3个,位置2个。三种颜色分量是实验室颜色空间的座标,其大致上是均匀一致的,并且距离是有意义的。这三个纹理分量是极性、各向异性和每个像素的对比度,在选定的比例下计算。各向异性和极性都是由对比度调制的,因为它们在低对比度区域没有意义。图像中像素的位置也包含在特征向量中,可以描述图像的空间分布。

然后,应用期望最大化(EM)算法将像素分割成贴片。由于图像经过特征提取后可以看作是八维特征空间中的点,因此分割问题转化为将这些点分成若干组。因此,EM算法被用来确定最大似然参数通过假设K高斯混合模型的特征空间。为了避免分割不足,我们选择了一个相当大的值k,其中k=256用于1024x768大小的图像。

为了从图像中获取更多的全局结构特性,在三种不同尺度(图像分辨率,分别为实验中原始分辨率的1倍、3倍和9倍)下对图像进行了分割。区域合并后,两个尺度上的分割将被细化后的分割所代替。示例结果如图2所示。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
4.3区域合并

区域合并是算法的核心部分。如图1所示,区域合并模块的输入是推断深度和初始图像分割结果,输出是两个较大尺度上的精分割。利用该模块,我们的算法可以捕捉到非近邻的斑块深度之间的强交互作用。例如,考虑位于大型建筑上的补丁,它们的深度相同。然而,由于特征空间(如建筑物墙上的窗户)中存在不连续性,一些相邻的面片很难识别为同一对象的一部分。当深度信息反馈时,相邻的面片趋于融合,不连续性被消除。然后,根据MRF模型,斑块的深度将高度相关。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

五、实验

为了验证我们的方法的有效性,我们进行了对比实验,将我们的算法与Saxena等人的[2,5]和Hoiem等人的工作[10]进行了比较。我们从Saxena的主页上下载了534张图片,其中400张用于训练模型。其余134幅图像用于定量比较,其余150幅互联网图像用于定性比较。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
与Saxena等人的工作和地面真实情况相比,推断深度图如图5所示,典型场景重建结果如图6所示。如图6中图5中第2行的第3图像和图6中第4行的第2图像所示,由于使用深度信息,图像中的远处区域的细节被任意地重构为均匀的细节。虽然区域合并只是在更大范围内作用于区域以改善这种情况,但这种情况有时仍然会发生。然而,总的来说,使用封闭形式的迭代框架得到了比以前更好的重建结果

作为该算法的副产品,还得到了包含深度信息的图像分割结果。最大尺度下的典型图像分割结果如图7所示。从场景结构解释的角度来看,经过1-3次迭代,分割效果越来越好。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
六、前景物场景重建

如上所述,具有相似特性的像素的每个分割区域表示场景中的相干区域。因此,当场景中有前置对象时,它有时会失败。示例如图8(a)所示。凳子位于后墙的前面,颜色和质地相似。在图8(b)所示的推断3d场景中,凳子和后墙连在一起,这显然是不对的。

在地面假设下,提出了一种解决上述问题的方法。实际上,前视物体最有可能是在地面上,而不是在地面上,尤其是在室内环境中。所以我们首先在图像中找到地面区域。根据初始场景重建结果,可以很容易地提取出地面区域的边缘,并将其表示为一组直线l1、l2、ln。然后将l1、l2、ln包围的像素标记为基带。至于图像中的前目标区域,它很可能与地面区域相交,而不是包含在其中。因此,如果一个区域只有一部分像素标记为地面区域,则可以将其视为前目标区域。提取前向对象的例子如图8(c)所示,黑线是地面区域的边缘,红色块是前向对象。

然后分别对前向目标区域和剩余区域进行处理。至于前面的物体,可以假定它垂直于地面,因为没有更多关于它的信息。基于这一假设,根据射影几何对深度进行了预测。至于其余区域,可通过第4节所述方法推断深度。最后将场景重建结果合并在一起。实验结果如图8所示(d,e,f)。
在这里插入图片描述
七、总结

近几十年来,从立体、运动等“三角剖分”线索出发,在深度推断和场景重建方面取得了很大的进展。然而,这项工作绝大多数只使用了几何线索,而忽略了图像中包含的其他深度线索,如纹理、颜色、散焦等。相比之下,最近对单目深度知觉的研究,如Saxena等人和Hoiem等人的工作,是对计算机视觉的有益补充。

在这些工作的启发下,本文提出了一种利用图像分割和深度推断的相关性的闭式迭代算法。该算法通过交替迭代处理,可以显著改善分割和深度推断。我们的算法首先通过基于em的算法得到初始分割结果。然后,利用多尺度马尔可夫随机场,通过有监督学习训练,建立特征向量与不同深度之间的关系模型。在推断出每个像素的深度后,反馈到较大尺度上对分割结果进行细化。该方法可以在不减少由三维场景结构构成的面片数量的前提下,获得更多的全局结构信息。上述过程反复进行,直到达到预期结果。实验结果证明了算法的有效性。此外,本文还扩展了该方法来处理具有前向对象的景深推断问题。我们相信我们的算法可以应用于其他许多视觉应用,如机器人导航、建立城市环境的三维模型和目标识别。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章