論文閱讀一(武漢加油、中國加油、不好的事必將過去)

一、MID-Fusion: Octree-based Object-Level Multi-Instance Dynamic SLAM

主要貢獻

1)第一個使用體積表示法的RGB-D多實例動態SLAM系統;
2)一種更魯棒的跟蹤方法,利用測量不確定性加權並重新設置參數以用於對象跟蹤;
3)一個集成了幾何信息、光度信息和語義信息的分割方法;
4)將語義分佈和前景對象概率融合到基於八叉樹的物體模型中。

A.系統概述

在這裏插入圖片描述
圖2顯示了我們提出的系統的流程。它由四個部分組成: segmentation, tracking, fusion and raycasting。每個輸入的RGB-D圖像都由Mask R-CNN處理以執行實例分割,然後進行幾何邊緣分割和計算運動殘差以優化蒙版邊界(第IV-D節)。對於tracking,我們首先根據不包括人類蒙版區域的所有頂點計算相機位姿(第IV-B節),然後從該位姿進行光線投射,以找出哪些物體在當前幀中是可見的。這也可以幫助將局部對象蒙版與現有對象模型相關聯。我們評估每個對象的運動殘差以確定其是否處於運動狀態,然後追蹤運動物體(第IV-C節)並根據靜態世界(包括當前的靜態對象)改進相機的位姿(第IV-B節)。使用相機和物體的估計位姿,將深度和顏色信息以及預測的語義和前景概率融合到物體模型中(第IV-E節)。 IV-F節介紹了可見物體的檢測以及射線投射。

B.RGB-D Camera tracking

計算相機位姿分爲兩步
1.根據除人類外的所有模型的頂點計算相機位姿。
2.根據靜態場景計算相機位姿。

通過最小化密集的點到面的ICP殘差eg和光度(RGB)殘差ep來進行這兩個步驟,這些殘差由單獨的測量不確定度wg和wp加權。
在這裏插入圖片描述
在初始化相機位姿之後,我們進行光線投射以在視圖中找到可見的物體。 爲了找到運動的物體,我們需要按公式7重新計算RGB殘差,然後在當前幀上對Etrack(TWCL)進行最優的評估,並設定一個閾值(個人理解:小於閾值的點爲inlier)。 如果物體的蒙版中的inlier比率低於0.9,則我們認爲該物體正在移動並按照IV-C節中描述優化其位姿。

然後,通過使用相同的目標函數和優化策略僅根據靜態物體來優化相機的位姿。

C.Object pose estimation

根據公式8和公式9重新最小化公式1,即可求得運動物體的位姿。

D.Combined semantic-geometric-motion segmentation

對於每個RGB-D幀,我們使用Mask R-CNN [16]進行實例分割,然後通過幾何邊緣優化來解決泄漏的Mask邊界[14]。

然後,我們通過光線投射將每個地圖物體的實例蒙版渲染到當前幀。

通過計算 IoU 與渲染蒙版的交集,我們將從Mask R-CNN和幾何優化生成的局部分割蒙版與現有物體模型相關聯。

在將分割蒙版與物體模型關聯之後,我們將基於物體的運動殘差進一步優化分割蒙版。根據公式10重新計算公式1,對於ICP和RGB殘差過高的像素將被視爲outlier,並在分割蒙版中濾除。

E.Object-level fusion

將深度、顏色、語義、前景概率信息集成到物體模型

F.Raycasting

光線投射方法是基於圖像序列的直接體繪製算法。從圖像的每一個像素,沿固定方向(通常是視線方向)發射一條光線,光線穿越整個圖像序列,並在這個過程中,對圖像序列進行採樣獲取顏色信息,同時依據光線吸收模型將顏色值進行累加,直至光線穿越整個圖像序列,最後得到的顏色值就是渲染圖像的顏色。

二、Improving Visual Localization Accuracy in Dynamic Environments Based on Dynamic Region Removal

使用神經網絡獲得先驗邊界框,人爲確定動態權重,權重低於0.5爲靜態區域。在靜態區域中選擇特徵點,初步估算兩幀之間的相對運動。根據得到的變換矩陣,將參考幀映射到當前幀。將當前幀劃分網格,計算特徵點對的歐式距離,然後用每個歐氏距離比上其中的最大值,據此給各個特徵點計算動態權重,進而計算各個網格包含的特徵點動態權重的平均值,即爲網格的動態概率。然後將網格的動態概率和物體檢測後,人爲賦予的動態權重帶入貝葉斯定理,更新動態概率。最後去掉動態區域,計算相機位姿。
在這裏插入圖片描述

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

三、DSOD: DSO in Dynamic Environments

DSO詳解

本文將語義分割網絡與深度預測網絡相結合,以提供先驗的深度和語義信息。

我們提出的方法基於DSO。 因此,我們首先在III-A部分中簡要描述DSO。 然後,我們提出的算法的整體方法在第III-B節中顯示。
深度預測和語義分割分別在第III-C節和第III-D節中介紹。 最後,我們在III-E節中介紹了檢查運動一致性和濾除動態點的方法

A、BASELINE DSO METHOD

最小化光度誤差:
在這裏插入圖片描述

B、DSOD FRAMEWORK

在這裏插入圖片描述
我們提出的方法的總體框架如圖1所示。我們的方法的輸入由RGB圖像序列組成,這些RGB圖像序列被分解爲紅色,綠色和藍色通道。 將光度校準應用於三個通道,然後將它們合併。 校正後的RGB圖像是深度預測和分割網絡的輸入。原始的RGB圖像也將轉換爲灰度圖像,進行光度校準,然後用作動態點選擇的輸入。

與DSO相反,在DSOD中引入了深度預測網絡以提供初始深度並對點模式進行編碼,以匹配投影的初始位置。 目的是加速深度的融合。網絡在單目SLAM系統中在一定程度上補償了尺度漂移。 此外,語義分割網絡用於檢查移動一致性,以減少動態環境中的錯誤。 最後,DSOD的輸出是估計的位姿。

C、DEPTH PREDICTION NETWORK

DSO僅從當前關鍵幀中選擇像素。 因爲它使用用不確定深度信息初始化的像素作爲候選點,沿大範圍沿對極線進行搜索時,可能會生成錯誤的投影對。 因此,我們將深度預測網絡引入到我們的方法中。 我們使用無監督的單目深度估計來預測候選點的初始深度。 該估計通過單圖像深度預測網絡爲候選點初始化過程提供了先驗的深度信息。

在沿對極線對候選點模式的代碼和搜索點模式的代碼進行XOR操作之後,最相似的投影就是我們的目標模式。 第二步是執行高斯–牛頓迭代,以優化投影對並更新候選點的深度。 最後,我們確定經過1次迭代後候選點的深度(相對於參考系)是否收斂。 如果沒有,則不應將該候選點用於姿勢估計

D、SEMANTIC SEGMENTATION NETWORK

在本文中,語義信息被用來標記動態環境中的潛在動態點。

爲了提高分割的準確性,我們採用了可以提供像素級分割的分割網絡。分割網絡在COCO數據集上進行了訓練[33],它可以檢測30類物體。其中,人,汽車,自行車,公共汽車和摩托車被定義爲潛在的移動物體。

E、MOVEMENT CONSISTENCY CHECK

用RANSAC方法和合適的特徵點,確定基礎矩陣。
利用基礎矩陣和參考幀的像素座標計算極線。
計算當前幀的像素點到極線的距離,若大於閾值則爲動態點。

四、DS-SLAM: A Semantic Visual SLAM towards Dynamic Environments

泡泡圖靈智庫解讀
一個兄弟的解讀

A、主要貢獻

  • 基於ORB-SLAM2 提出了動態環境中的完整語義SLAM系統(DS-SLAM),可以減少動態對象對位姿估計的影響。
  • 本文將一個實時語義分割網絡放在一個獨立的線程中,它將語義分割與移動一致性檢查方法結合起來,過濾掉場景的動態部分,如走路的人。因此,在動態場景中,提升了定位模塊和建圖模塊的穩定性和魯棒性。
  • DS-SLAM創建了一個單獨的線程來構建稠密的語義3D八叉樹地圖。稠密的語義三維八叉樹地圖採用優勢對數計分法濾除不穩定體素並更新這些體素的語義。

B、概述

圖1 DS-SLAM概述圖。 原始RGB圖像用於同時進行語義分割和移動一致性檢查。 然後刪除異常值並估計位姿。 基於位姿,深度圖像和語義分割結果,在獨立線程中構建語義八叉樹地圖。
在這裏插入圖片描述

C、框架

圖2 DS-SLAM的框架圖。 局部地圖線程和迴環檢測線程與ORB-SLAM2相同。 前者處理新的關鍵幀並執行局部BA以在相機姿勢的周圍實現最佳重建,而後者搜索迴環並在檢測到迴環時執行圖優化。
在這裏插入圖片描述

D、semantic segmentation

  • 使用的網絡結構是SegNet,在caffe上使用VOC訓練,共20個類別。
  • 認爲標籤爲行人的特徵點最有可能是外點。

E、Moving Consistency Check

通過光流法匹配特徵點
若某對匹配的特徵點接近邊界,或其像素值與以它爲中心的3x3區域內的像素值差別太大,就丟棄這對匹配。
用RANSAC方法和合適的特徵點,確定基礎矩陣。
利用基礎矩陣和參考幀的像素座標計算極線。
計算當前幀的像素點到極線的距離,若大於閾值則爲動態點。
在這裏插入圖片描述

F、動態點剔除

語義分割結果無法判斷物體是否是動態的。
運動一致性檢查得到的點,不是這個物體包含的所有點,缺少精確輪廓
因此,將這兩個步驟的結果結合起來,如果在一個物體的語義分割邊界內,有足夠數量的由移動一致性檢測得到的移動點,那麼這個物體的所有點都被視爲動態的。然後剔除動態點進行位姿估計。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章