自动驾驶--Visual-Inertial-Semantic Scene Representation for 3D object Detection (一 )

声明:

1)本文为论文阅读记录,主要用于分享和学术交流
2)若有错误,欢迎各位大牛吐槽,如有版权问题请联系:[email protected]

**

这篇文章是UCLA Vision lab, University of California, 的 jingming Dong, Xiaohan Fei, 以及 Stefano Soatto 的文章,目前还是在arXiv.org.
文章链接如下 :
https://arxiv.org/pdf/1606.03968
该团队有一个类似的工作”VL-SLAM: Real-Time Visual-Inertial Navigation and Semantic Mapping” 发表在CVPR 2016 的demoPoster
相对CVPR2016 的工作,该文章给原来提出的3D bounding box 位置添加了 CAD model.

主要创新点:
通过结合IMU + SLAM + CNN 识别出场景中的物体(类别,尺寸,朝向)
1. 其中VIO 用于场景的定位以及尺度的获取,(例如避免将尺度相差很大的模型车识别成真是的车)
2. CNN (RBG 大神的YOLO)用于语义的识别, 结合几何信息进行3D object 的识别
3. 识别的物体即使被障碍物遮挡,被遮挡物体仍然存在(视频中用虚线框出)(相当于数据关联)

以下是两篇文章的效果:
第一张图为CVPR2016 demoPoster 的效果:


CVPR2016 demoPoster:

第二张图为CVPR2016 demoPoster 的效果:


这里写图片描述
两个效果都能区分出玩具车和真是车辆,不仅如此,还恢复出车辆在空间中的位姿。

以下是该文章都是相对 sub-CNN 的定量比较:


这里写图片描述

相对 sub-CNN 的定性比较:


这里写图片描述

文章和公式还在阅读和推导中,后续请继续关注!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章