VSLAM(6): Real-time Segmentation, Tracking and Fusion of Multiple Objects

學習論文: 時而學習之, 溫故而知新.

該算法以模型爲基礎單位, 一組3D點的集合(關鍵幀), 來實現幀的跟蹤/分割/融合

活躍模型: 在當前幀中看到的模型
非活躍模型: 曾經出現過, 不知其幾何形狀, 也不在當前視野內.

在這裏插入圖片描述

1. 摘要

本文介紹了一種基於RGB-D相機實時的稠密SLAM系統(定位+3D環境重建)。該算法可以根據運動和語義標註將場景分割成不同的目標物。

我們使用多種模型擬合方法,其中每個對象都可以獨立於背景移動,並且仍然有效地跟蹤其形狀,並且僅使用與對象標籤關聯的像素信息就可以融合其形狀。

在以前相關的研究中,處理動態場景的嘗試通常是將移動區域視爲離羣值,因此不對它們的形狀建模或隨時間推移跟蹤運動。
相比之下,我們使機器人能夠維護每個分割對象的3D模型,並通過融合不斷改進它們。

結果,我們的系統可使機器人在對象級別維護場景描述,即使是動態場景也有可能與其工作環境進行交互。

2.主要貢獻

在機器人移動過程中, 該算法不僅能夠重建周圍環境, 而且能獲取未知3D幾何目標(靜態或動態)的詳細信息.

1.使用運動或語義標誌, 將場景分割成背景和目標. (假設在感興趣區域內的目標能夠被分割算法所檢測和分割)

2.提供兩組可替代的策略: 這兩種形式的分割不僅能夠根據運動檢測目標, 而且就算是靜態的, 根據語義信息也可以對其進行分離.

  • 運動分割

在3D空間中具有運動一致性的點形成一個組合(超像素?).
劃分超像素: gSLICr: SLIC superpixels at over 250Hz.
分割: Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials

  • 對象實例分割

根據RGB中給出了語義標籤(像素級別), 檢測和分割單個目標.

3. 核心方法

初始化: 幀-幀映射處理, 初始化單個活躍模型(背景), 一旦融合的3D背景模型和相機位姿在幾幀數據之內保持穩定之後, 對接下來的每一幀進行以下處理:

  • step1.跟蹤

首先, 將幀中儲存的3D模型數據與當前幀中的點數據基於ICP方法最小化幾何誤差(距離)和光度誤差(灰度), 跟蹤每一個活躍模型的6DOF的位姿.

  • step2.分割

對圖像中目標進行分割, 有兩種分割提示方式: 運動和語義標籤.

運動分割:
	使用完全連接的`條件隨機場`來實現模型化分割問題.[9]
	`一元勢能編碼將`像素與剛性運動模型相關聯時產生的幾何ICP成本. 優化之後,在分割圖像中提取連接的分量。
	如果異常值所佔據的連接區域具有足夠的支持,則假定某個對象已進入場景,並生成了一個新模型並將其添加到列表中。

多類圖像分割(語義分割):
	基於深度學習, 根據給出語義標籤, 對目標實例進行分割.[17]

  • step3.融合

通過融合屬於模型的點指示, 利用新估計的位姿, 去更新活躍模型的3D幾何形狀[8,13].

追蹤和融合兩個步驟可以在GPU上運行, 分割步驟在CPU上運行. 因此, 整個SLAM系統可以以每秒12幀, 以及5個不同目標模型來更新.

4. 實現細節解析

活躍模型包含的數據: 位姿, 法向量, 顏色color, 權重, 半徑.

  • 跟蹤活躍模型
對在時間t下輸入的圖像和活躍模型, 通過將當前深度圖與上一時刻預測深度圖進行校準, 跟蹤其全局位姿;
僅針對特定的模型進行單獨優化;
	基於ICP的幾何校準+光度顏色目標函數;
	基於ICP的幾何投影目標函數校準;
	基於光度誤差目標函數
  • 運動分割
超像素(SLIC)分割[1, 18];
一元勢能: 給出了超像素與標籤的代價消耗;
多元勢能: 

  • 目標實例分割
SharpMask[17].
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章