自動駕駛--Visual-Inertial-Semantic Scene Representation for 3D object Detection (一 )

聲明:

1)本文爲論文閱讀記錄,主要用於分享和學術交流
2)若有錯誤,歡迎各位大牛吐槽,如有版權問題請聯繫:[email protected]

**

這篇文章是UCLA Vision lab, University of California, 的 jingming Dong, Xiaohan Fei, 以及 Stefano Soatto 的文章,目前還是在arXiv.org.
文章鏈接如下 :
https://arxiv.org/pdf/1606.03968
該團隊有一個類似的工作”VL-SLAM: Real-Time Visual-Inertial Navigation and Semantic Mapping” 發表在CVPR 2016 的demoPoster
相對CVPR2016 的工作,該文章給原來提出的3D bounding box 位置添加了 CAD model.

主要創新點:
通過結合IMU + SLAM + CNN 識別出場景中的物體(類別,尺寸,朝向)
1. 其中VIO 用於場景的定位以及尺度的獲取,(例如避免將尺度相差很大的模型車識別成真是的車)
2. CNN (RBG 大神的YOLO)用於語義的識別, 結合幾何信息進行3D object 的識別
3. 識別的物體即使被障礙物遮擋,被遮擋物體仍然存在(視頻中用虛線框出)(相當於數據關聯)

以下是兩篇文章的效果:
第一張圖爲CVPR2016 demoPoster 的效果:


CVPR2016 demoPoster:

第二張圖爲CVPR2016 demoPoster 的效果:


這裏寫圖片描述
兩個效果都能區分出玩具車和真是車輛,不僅如此,還恢復出車輛在空間中的位姿。

以下是該文章都是相對 sub-CNN 的定量比較:


這裏寫圖片描述

相對 sub-CNN 的定性比較:


這裏寫圖片描述

文章和公式還在閱讀和推導中,後續請繼續關注!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章