聲明:
1)本文爲論文閱讀記錄,主要用於分享和學術交流
2)若有錯誤,歡迎各位大牛吐槽,如有版權問題請聯繫:[email protected]
**
這篇文章是UCLA Vision lab, University of California, 的 jingming Dong, Xiaohan Fei, 以及 Stefano Soatto 的文章,目前還是在arXiv.org.
文章鏈接如下 :
https://arxiv.org/pdf/1606.03968
該團隊有一個類似的工作”VL-SLAM: Real-Time Visual-Inertial Navigation and Semantic Mapping” 發表在CVPR 2016 的demoPoster
相對CVPR2016 的工作,該文章給原來提出的3D bounding box 位置添加了 CAD model.
主要創新點:
通過結合IMU + SLAM + CNN 識別出場景中的物體(類別,尺寸,朝向)
1. 其中VIO 用於場景的定位以及尺度的獲取,(例如避免將尺度相差很大的模型車識別成真是的車)
2. CNN (RBG 大神的YOLO)用於語義的識別, 結合幾何信息進行3D object 的識別
3. 識別的物體即使被障礙物遮擋,被遮擋物體仍然存在(視頻中用虛線框出)(相當於數據關聯)
以下是兩篇文章的效果:
第一張圖爲CVPR2016 demoPoster 的效果:
第二張圖爲CVPR2016 demoPoster 的效果:
兩個效果都能區分出玩具車和真是車輛,不僅如此,還恢復出車輛在空間中的位姿。
以下是該文章都是相對 sub-CNN 的定量比較:
相對 sub-CNN 的定性比較:
文章和公式還在閱讀和推導中,後續請繼續關注!