基于深度学习的单目深度估计-Monocular depth estimation based on deep learning


参考自单目深度估计**综述**文章:https://arxiv.org/abs/2003.06620
文章围绕单目深度估计的数据集、评估指标、相关工作(有监督,半监督以及无监督)等进行了简介和综述。

简介

对于自主系统,如自主机器人和无人车等,无论对周围环境感知还是对自身状态感知避障轨迹规划等,都离不开对深度信息的计算。目前来说,获取深度的三种方式:基于深度传感器,基于几何求解,基于深度学习求解。
基于传感器的方法主要问题在于,一方面其价格和单目相机相比差距很大,另外其尺寸、功耗等都限制了其在小型自主系统(如小型无人机)上的应用;对于能够生产稠密深度图的RGB-D相机来说,其主要应用在室内环境,测量精度也容易收到外界影响。 基于几何的方法也是目前广泛使用与SLAM或VO中的方法,其能够利用相邻图像序列之间的建立几何约束实现对图像上像素点深度信息的求取以及相机位姿变换的求解;基于几何的方法在于一方面算法比较复杂,而且一般只能求取稀疏特征点的像素深度信息,其精度依赖于后端的优化环节。基于深度学习的方法优点和缺点也都很明显,优点在于算法框架简单,入门快,不需要像几何方法那种包含很多专业知识和几何约束在里面,端到端实现单目稠密深度图的估计;缺点在于算量大,目前的高精度深度估计网络的参数量都是千万级起步,这就意味着其对算力的需求之大以及实时性不足;但是随着嵌入式算力的不断提升,算力似乎在未来并不是什么很致命的问题。

算法分类(按训练方式)

从单张视图中获取深度信息一直是一个很有挑战的方向,因为它是个 ill-posed 问题。传统的方向都是借助于一些人为设定的几何先验,比如在一些简单场景(楼道)中线条的几何关系(垂直or平行)实现从单张视图的3D结构感知。近年来深度神经网络的强大图像处理能力也为单目深度估计的实现提供了另一种思路:端到端的从单目图像中估计稠密深度图。目前根据其训练模式(Ground Truth 的使用程度)可以划分为三类:有监督,无监督和半监督。

有监督(Supervised methods)

由于使用GroundTruth (GT) 作为网络的主要监督信号,深度网络可以直接从GT中学习RGB图和深度图之间的映射关系,所以有监督方法的精度较高,整个框架设计也相对更加的简单。但是“成也GT败也GT”,这种方法的实际应用严重受限于带GT的数据集,而GT的获取并不是那么容易,代价高昂。所以今年来半监督和无监督方法得到的关注度更多,相关的论文也更多。

无监督(Unsupervised methods)

考虑到获取GT的代价问题,无监督方法采用帧间几何约束代替GT作为网络的监督信号。无监督方法的训练过程只需要单目图像序列即可完成对位姿估计网络深度估计网络的联合估计。训练过程的网络输入3-5帧的短视频序列,位姿网络估计中间帧和其他帧之间的位姿变化,深度估计网络输入中间帧并输出其对应的稠密深度图。然后利用视图重构算法从其他帧合成中间帧:首先利用投影建立帧间的像素投影关系;然后利用线性插值warping 将像素从其他帧采集并填补。最后计算合成视图和原始图之间的差异作为网络的主要监督信号;除此之外,还有一些平滑损失等用于对深度预测进行进一步的优化。

半监督方法的主要问题在于,固有问题以及重构过程造成的问题。 固有问题包括单目序列所固有的尺度模糊问题,而且由此进一步造成的尺度不一致问题。重构过程主要建立在投影函数上,基于投影的帧间像素对应依赖于静态场景假设;但是由于场景中的动态物体,遮挡,视野变化等,都会导致相邻视图之间像素的不完全对应,从而会对重构过程造成影响。

半监督(Semi-supervised methods)

半监督方法主要划分为两大类,一类是基于稀疏LIDAR真值的方法,一类是基于双目立体图像对的方法。
LIDAR和RGB-D相比的优势很明显,一方面LIDAR可以用于室外场景,另一方面其稳定性、测量范围和分辨率都更具有优势,这也是其作为当前自动驾驶的主流传感元器件的原因。但是其采集的深度信息是离散和稀疏的,这给其直接用作监督信号带来了不小的挑战。因为如果采用插值的方式对稀疏帧间处理成稠密深度图,网络的精度会受到插值效果的严重影响;而直接利用稀疏真值与预测结果的差异作为监督信号又会面临梯度的反向传递问题。
基于双目立体图像对的方法,很多人(主要是研究这一块的人)也把他们叫做无监督方法,而一些做单目序列的人会把其作为半监督。这两种说法都有道理,本文之所以将其称为半监督方法,主要依据是,双目相机之间的参数是需要提前标定的,这个参数就相当於单目方法中的位姿已知,而且这个位姿还是带有尺度信息的GT位姿。所以,基于双目立体图像对的方法估计结果包含尺度信息。双目方法经过近几年的方法,逐渐从逆深度估计转换为双目视图之间的视差估计。训练过程的主要监督信号源于由视图合成算法从右视图合成的左视图与真实的左视图之间的差异。

发展趋势

至于发展趋势的话,主要是位于其精确性、迁移性和实时性等几个方面展开的。例如采取不同的网络结构,如对抗学习,迁移学习,蒸馏学习,图卷积,LSTM,注意力机制以及轻量级网络等;新的框架,如多任务框架,结合语义,相机内参估计,动态物体分割等任务,通过利用各个任务之间的相互约束关系,实现共同的性能提升;新的概念,如域自适应,提升网络在合成数据集和真实数据集等不同域上的适应性;新的几何约束,如考虑基於单目序列方法的尺度不一致问题,设计新的几何约束项对尺度的一致性进行约束。

基于双目的半监督方法和基於单目序列的无监督方法结果对比:
基于双目的半监督方法和基於单目序列的无监督方法结果对比

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章