學習論文: 時而學習之, 溫故而知新.
該算法以模型爲基礎單位, 一組3D點的集合(關鍵幀), 來實現幀的跟蹤/分割/融合
活躍模型: 在當前幀中看到的模型
非活躍模型: 曾經出現過, 不知其幾何形狀, 也不在當前視野內.
1. 摘要
本文介紹了一種基於RGB-D相機實時的稠密SLAM系統
(定位+3D環境重建)。該算法可以根據運動和語義標註
將場景分割成不同的目標物。
我們使用多種模型擬合方法,其中每個對象都可以獨立於背景移動,並且仍然有效地跟蹤其形狀,並且僅使用與對象標籤關聯的像素信息就可以融合其形狀。
在以前相關的研究中,處理動態場景的嘗試通常是將移動區域視爲離羣值,因此不對它們的形狀建模或隨時間推移跟蹤運動。
相比之下,我們使機器人能夠維護每個分割對象的3D模型,並通過融合不斷改進它們。
結果,我們的系統可使機器人在對象級別維護場景描述,即使是動態場景也有可能與其工作環境進行交互。
2.主要貢獻
在機器人移動過程中, 該算法不僅能夠重建周圍環境, 而且能獲取未知3D幾何目標(靜態或動態)的詳細信息.
1.使用運動或語義標誌, 將場景分割成背景和目標. (假設在感興趣區域內的目標能夠被分割算法所檢測和分割)
2.提供兩組可替代的策略: 這兩種形式的分割不僅能夠根據運動檢測目標, 而且就算是靜態的, 根據語義信息也可以對其進行分離.
- 運動分割
在3D空間中具有運動一致性的點形成一個組合(超像素?).
劃分超像素: gSLICr: SLIC superpixels at over 250Hz.
分割: Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials
- 對象實例分割
根據RGB中給出了語義標籤(像素級別), 檢測和分割單個目標.
3. 核心方法
初始化:
幀-幀映射處理, 初始化單個活躍模型
(背景), 一旦融合的3D背景模型和相機位姿在幾幀數據之內保持穩定之後, 對接下來的每一幀進行以下處理:
- step1.跟蹤
首先, 將幀中儲存的3D模型數據與當前幀中的點數據基於ICP方法最小化幾何誤差(距離)和光度誤差(灰度), 跟蹤每一個活躍模型
的6DOF的位姿.
- step2.分割
對圖像中目標進行分割, 有兩種分割提示方式: 運動和語義標籤.
運動分割:
使用完全連接的`條件隨機場`來實現模型化分割問題.[9]
`一元勢能編碼將`像素與剛性運動模型相關聯時產生的幾何ICP成本. 優化之後,在分割圖像中提取連接的分量。
如果異常值所佔據的連接區域具有足夠的支持,則假定某個對象已進入場景,並生成了一個新模型並將其添加到列表中。
多類圖像分割(語義分割):
基於深度學習, 根據給出語義標籤, 對目標實例進行分割.[17]
- step3.融合
通過融合屬於模型的點指示, 利用新估計的位姿, 去更新活躍模型的3D幾何形狀[8,13].
追蹤和融合兩個步驟可以在GPU上運行, 分割步驟在CPU上運行. 因此, 整個SLAM系統可以以每秒12幀, 以及5個不同目標模型來更新.
4. 實現細節解析
活躍模型包含的數據:
位姿, 法向量, 顏色color, 權重, 半徑.
- 跟蹤活躍模型
對在時間t下輸入的圖像和活躍模型, 通過將當前深度圖與上一時刻預測深度圖進行校準, 跟蹤其全局位姿;
僅針對特定的模型進行單獨優化;
基於ICP的幾何校準+光度顏色目標函數;
基於ICP的幾何投影目標函數校準;
基於光度誤差目標函數
- 運動分割
超像素(SLIC)分割[1, 18];
一元勢能: 給出了超像素與標籤的代價消耗;
多元勢能:
- 目標實例分割
SharpMask[17].