SDOD: Real-time Segmenting and Detecting 3D Objects by Depth(實時3D檢測與分割)

作者:Tom Hardy
Date:2020-2-24
來源:SDOD:基於depth的實時3D檢測與分割

主要思想與創新點

大多數現有的實例分割方法只關注2D對象,不適用於三維場景,如自動駕駛。本文提出了一種將實例分割和目標檢測分爲兩個並行分支的模型,將對象深度離散爲“深度類別”(背景設置爲0,對象設置爲[1,K]),將實例分割任務轉化爲像素級分類任務。mask分支預測像素級的“深度類別”,3D分支預測實例級的“深度類別”,通過給每個實例分配具有相同“深度類別”的像素來生成實例掩模。另外,爲了解決KITTI數據集(200爲mask,7481爲3D)中mask標籤與3D標籤不平衡的問題,本文采用其它實例分割方法生成的unreal mask來訓練mask分支。
儘管使用了不真實的mask labels,但在KITTI數據集上的實驗結果仍然達到了車輛實例分割的最佳性能。

本文創新點主要包括三點:

  1. 通過離散深度將實例分割任務轉化爲語義分割任務
  2. 提出一個結合3D檢測和實例分割的網絡,並將其設置爲並行分支以加快速度
  3. 結合unreal的mask和真實的深度來訓練mask分支,以解決標籤不平衡的問題

網絡結構

SDOD框架的總體結構如下圖所示,它由兩個並行分支:3D分支和mask分支組成。

在這裏插入圖片描述
針對3D檢測:本文參考了MonoGRNet的設計,將3D對象檢測分解爲四個子網:2D檢測、實例級深度估計、3D位置估計和角點回歸。2D檢測採用類似於YOLO結構的方式,Instance Depth是從RGB圖像中迴歸出來的離散深度圖。

針對Mask分支:採用ASPP+FCN方式。FCN模塊最終輸出C個圖像(C代表類別),每個圖像是目標的像素級深度類別圖,如上圖所示。像素的顏色越深,像素的深度值就越大,像素離我們越遠。這個分支完成了像素級別的分割+depth估計。

Mask分支完成了基於像素級別的深度和類別分割,3D分支完成了目標的3D檢測,兩者進行結合,完成實時檢測和分割。

針對損失函數:主要包括2D Detection loss、實例級深度損失、像素級深度損失以及3D box的角度損失和位置損失。

實驗結果

主要針對KITTI數據集進行試驗分析,並和其它模型進行了性能對比:

在這裏插入圖片描述
在這裏插入圖片描述
實例檢測分割效果:

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章