基于深度学习的抓取检测(grasp detection)相关论文解析

近几年深度学习技术蓬勃发展,其相关的应用场景也越来越多样化,比如本人做的机械手抓取物体就可以通过深度学习技术加以应用,优化出抓取目标物体的合适的中心座标,旋转角以及爪盘开度。针对这个问题,目前绝大多数论文讨论的基本上都是基于目标检测领域(object detection)的检测框架(R-CNN,YOLO等),唯一不同的地方是抓取检测引入了机械爪抓取旋转角(orientation)这个目标参数。
机器人抓取检测这个研究方向对智能制造,工业4.0等还是有很重要的意义,因此本文就抓取检测领域的一些重要论文进行汇总研究(以后看了新的论文俺也会在这进行更新),前几篇论文都是很久之前的论文了,可能现在有更多前沿的技术,本人也不是专门研究机器人抓取这一块的,因此主要考虑自身的学习,对现有的论文进行整理研究,由于个人能力有限以及工作量太大,无法对全文作出全面的解析,因此有些部分只做简要的介绍,如有翻译或理解错误,还望大家批评指正:

序号 论文名 关键词
1 Deep Learning for Detecting Robotic Grasps(论文)(源码 两阶段,PR2,三维空间
2 Real-Time Grasp Detection Using Convolutional Neural Networks(论文)(源码 单阶段,实时 ,多抓取预测

一.Deep Learning for Detecting Robotic Grasps

1.介绍

这篇论文是抓取检测领域的一篇重要论文,还提供了开源数据集,源码和数据集都在项目官网上面可以下载。
介绍部分作者主要提到深度学习技术在一些任务上效果很好,前人主要的一些工作都集中在种类识别,人脸识别,行人识别等等,殊不知抓取也是一项检测任务,因此提出第一个创新:将深度学习应用在抓取的检测问题中。
随后指出一系列创新:利用RGBD多模态数据来提高抓取的效果,提出的两阶段检测系统等等,个人理解作者的两阶段检测相当于是添加预训练网络,提取第一个阶段的特征到主干网络进行再学习。
紧接着作者从机器人抓取这块讨论现有的主要是基于力闭合,形式来手工设计抓取评估参数,还有基于3D模型的抓取,这些基于物理场景重建的方法不适用于变化场景的抓取。
然后引入机器学习的应用,学习算法可以减少手工设计的过程,同时可以泛化模型可以检测从未见过的物体。但是现有的算法还是有一些手工设计特征的过程。
然后指出深度学习的一些应用,在检测方面的应用基本上都是目标检测,人脸检测这些方面。
最后强调多模态数据的结合,以及多任务学习的结构化和正则化。

2.模型,系统

本文解决的问题用下图表示:
在这里插入图片描述
作者提出的方法先通过浅层的学习网络来评分一些潜在的抓取,然后输入到更大的网络输出最优的抓取。由于本文讨论的是三维空间的六自由度抓取,因此还涉及到通过深度图得到接近向量的问题,最后通过自动编码器AE进行特征的提取。
为了实现抓取检测,两阶段检测的方法被提出,一:用少量特征确定一些候选抓取框,二:用更大的鲁棒性更好的特征来对候选框进行评分排序。所以为了提取这些特征,引入深度学习的方法。作者也展示了自动编码器的结构,如下图。
在这里插入图片描述关于作者使用的自动编码器原理,分为与训练阶段,无监督学习的自动提取特征部分,以及有监督微调阶段,通过标签在进行网络参数的调整,大家也可以自行网上搜索相关资料进行补充学习。对于两阶段学习,本人的理解是第一个网络用于回归多组抓取参数,然后第二个网络利用前一个网络的每组参数取出抓取框区域进行评分。这两个网络的都是用同一类型的网络–AE,但是分两步学习。

3.细节部分

由于作者解决的是三维空间的六自由度抓取问题,因此输入的为7通道数据,前四通道为彩色深度YUVD四个,后三个为根据深度通道计算的xyz方向的表面法向量。
A.数据预处理
总结了白噪声过滤的PCA算法,但是不适用与本文的情况,因为本文的数据大部分会被掩盖,只提取矩形区域的信息。随后对数据白化进行阐述。
B.长宽比问题
这块主要通过保留矩形框原始的长宽比,对短边进行mask补充的方法,防止抓取矩形的图像失真而被误判的情况。同时给出一个mask-based方法,用于扩大矩形框比例范围,生成更接近真实标签的矩形。

4.特征学习

文中提出三种多模态融合模型,如下图:
在这里插入图片描述
最左边的模型学习所有模态的数据,但是可能会过拟合,同时可能会在学习多模态数据之间的相关性时失败。
中间的模型在低层网络单独学习每个模态的特征,而在高层是多模态学习,这种方式在模态数据有差异性很大时能起到作用,但是RGBD数据每个通道的数据有关联性,因此也不太适用。因此作者使用最右的模型。
关于多模态数据的学习这一块作者讲了很详细的优化过程,有兴趣大家可以去看看,本人就不再过度赘述。

5.实验与结果

评估模型作者用五折交叉验证法,训练集和验证集均为互斥子集,同时子集采用单图像,单种类目标原则来划分。
对于矩形的搜索,作者采用基于50个结点的深度网络的穷举搜索法,然后通过200个结点的网络对其进行打分。
同时检测指标提到了点指标和矩形指标。作者采用后者进行评估,认为预测的旋转角度与标签值偏差小于30度,且IOU重合值大于25%即认为是True Positive。
作者从一方面展示了从正负样本提取的特征的差异性,来显示网络的有效性,一方面也从实际检测精度来量化比较。
主要比较了,

  • 现有方法的网络模型和作者提出的基于AE的模型的检测精度
  • 对不同模态数据对检测精度的影响
  • SAE模型衍生的不同算法用点指标或矩形指标在Image-wise split和Object-wise split交叉验证法上面的比较,如下图:

在这里插入图片描述
最后作者在两台机器人上进行了充分的实际抓取实验。

6.结论

最后作者指出本文没有优化抓取方位,目前采用的仅仅是平行于物体表面法向量,可以往3D特征提取这个方向继续进行研究。
同时在一些多指抓手方面本文也有一定的启发性,且作者提出的算法也可以被应用在目标检测,障碍物检测方面。
作者还提出这种两阶段算法有一定的局限性就是利用的是局部特征,可能一些物品在全局看来有更好的抓取方式。这一点在接下来的一篇基于全局信息的文章中也有提到。


二.Real-Time Grasp Detection Using Convolutional Neural Networks

1.介绍

本节主要提出视觉感知在机器人系统的技术难题,目前常用的方法在康奈尔数据集上运行效率低下,且准确率只有75%,基本上使用基于滑动窗口框架的方法,对图像取出的局部区域进行学习,而本文提出的单网络进行回归输出与上一篇文章相比,相当于YOLO之与RCNN,执行端到端的学习,得到效率提升,另外多说一句,这篇文章的作者也正是YOLO之父Joseph Redmon。
机器人抓取的方法分为3D点云空间分析和2D平面抓取,本文主要针对后者进行改进,基于RGBD数据进行单个物体的检测,而不考虑整个三维物理空间模型。

2.问题描述

沿用Lenz等人的机器人抓取参数表征方法,通过五个参数代表二维抓取,同时也有 Jiang等人用七个抓取参数代表三维空间的抓取。
在这里插入图片描述

3.神经网络

在模型设计这块,本文提出基于CNN进行特征提取的方法,采用目标检测中AlexNet的基本框架进行修改,网络结构如下图所示:
在这里插入图片描述
并设计如下几个模型进行准确率和效率的比较:

A. 直接回归单个抓取
这种模型假设每个图像只有一个可抓取的目标物体,且只预测一个抓取框,六个参数,(x,y,w,h,sinθ,cosθ)。由于抓取角度的对称性,因此选取其正余弦值来代替。
B. 回归+分类
这种模型结合了种类识别的功能,通过在主干网络输出层中添加对应的目标种类,保持网络其他部分的结构不变,即识别和抓取检测用到的都是同一组特征。但是由于网络结构相对于A模型基本没有大的改动,所以运行的速度也差不多。
C. 多抓取检测
第三个模型是第一个模型的广义版本,即模型A是C的特例,该模型类似yolo的多栅格预测的思路,将整张图片划分为NN个栅格,对每个栅格预测7个参数,第一个参数为热度图,代表可抓取性,其余6个参数还是代表抓取参数,每张图片输出层NN*7个节点。所以说模型A为C的特例,其N=1。
并且该模型计算反向传播损失时,不考虑无目标物体的cell(但是会考虑热度图通道),包含正样本的cell则会全部计算在损失内。如下图所示,这是一次多抓取预测的过程。
在这里插入图片描述

4.实验评估

对于实验部分,本文虽然进行了标记了多个ground truth框,但是也不可能把所有可能的抓取标记出来,所以作者的目的是列出良好的一些抓取作为示例来进行学习。
A.抓取检测
实验对抓取框准确性的评估指标有两种,一种是点指标,作者指出这种方式主要是对抓取位置中心点与标签的偏差值,不适合带有角度和开度的机械爪,而且相差距离的阈值也不好确定,同时本人个人感觉这种方式适合单点执行器,如吸收器,点胶枪等。而第二种是矩形指标,更符合机械爪的抓取,其指标内容综合考虑了抓取角度,Jaccard值(类似IOU),同时由于上述提到的无法穷尽所有的ground truth,因此这个Jaccard阈值只要超过25%即被认为预测成功。
模型评估这块作者使用五折交叉验证法,同时提出两个方式进行数据集划分:
1.图像层面:随机对每张图像进行划分子集
2.目标层面:将包含同一种目标的图像作为交叉验证的子集
作者指出,这么做的目的是利用第一种方式验证模型对目标位置回归的准确性,泛化性;但是比如太阳镜就有不同的颜色和形状,所以有了第二种方式来验证模型对不同形状种类的新奇物体也有泛化性能。
B.目标分类
也是利用模型B对上述的交叉验证法进行分类准确率评估。
C.预训练
作者提出对分类网络进行预训练权重,这样可以提高训练速度和避免过拟合。同时指出AlexNet输入的为三通道图像,而Kinect采集为RGBD四通道,因此将蓝色通道用深度通道代替,这样做的目的是方便网络预训练,因此没有去改变网络输入通道数。
D.训练
E.数据预处理
这块主要提到处理深度数据,同时对全局图像进行中心均值化,全局通道值减去144。同时对数据集进行扩充。

5.结果

结果如下表所示:
在这里插入图片描述
作者对其他文献的效率准确率进行了比较,分析了主要加速原因是单阶段检测和GPU性能这两块的优势。
对于第一种模型A,直接回归模型主要针对全局进行抓取预测,比如圆盘状的目标就会失败,作者称这个问题为average grasps。
对于第二种模型,加上分类任务后的准确率也达到了90%,但是对于目标层面的数据集准确率只有60%。
最后的多抓取预测模型,是作者认为最优的模型,避免了模型A带来的average grasps问题,在下图中作者也列出了对比,同时这个模型也有很高的检测速度和准确率。
在这里插入图片描述

6.结论

在最后的结论中,作者比较了提出的几种模型,认为最优的模型C多抓取预测,也有不足之处,就是没有量化评估,究其原因也是因为没有合适的数据集能够给出一张图像里所以可能的抓取。本人看来,还是因为标签的非唯一性问题,无法做到所有的ground truth都被标记出来,而且标签也具有主观性,不同的人可能做出不一样的标签,不像分类问题那样只有唯一一个客观的标签。最后还强调了用RGD代替RGB图像的优势。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章