語義 SLAM 分類

  SLAM 與深度學習技術結合是SLAM的另一大方向。高博在《視覺SLAM十四講》中指出,通過語義與SLAM 相結合,兩者相互促進,相互補充。

  一方面,語義幫助 SLAM。通過語義,我們能得到一張帶有標籤的地圖,物體信息也可爲迴環檢測、BA優化帶來很多條件。逐漸有很多學者將神經網絡方法引入到 SLAM 中的物體識別和分割,甚至 SLAM 本身的位姿估計與迴環檢測中。

  另一方面,SLAM 幫助語義。SLAM 中我們可以估計相機的運動,自動地計算物體在圖像中的位置,節省人工標定的成本。

  本文按語義在 SLAM 處理中的角色進行分類總結。

一、深度學習與 SLAM 的結合點

用深度學習方法替換傳統 SLAM 中的一個/幾個模塊

  • 特徵提取、匹配,提高特徵點穩定性
  • 深度估計
  • 視覺里程計
  • 閉環檢測
  • 其他

基於學習的方法可替代繁瑣的公式計算,無需人工特徵提取和匹配,更加簡潔直觀,且線運算速度快。缺點是不同算法對訓練學習數據庫依賴較強。

在傳統 SLAM 之上加入語義信息

  • 圖像語義分割
  • 語義地圖構建

基於深度學習的語義 SLAM 多是單向的,即利用傳統 SLAM 改進語義分割結果,還未出現語義信息與 SLAM 相互促進的完善機制。

端到端的 SLAM

  • 機器人自主導航(深度強化學習)等

二、相關論文整理及摘要

1、用深度學習方法替換傳統 SLAM 中的一個/幾個模塊

1.1 深度學習與視覺里程計

  基於深度學習的方法無需特徵提取,也無需特徵匹配和複雜幾何運算。

  • Konda K, Memisevic R. Learning visual odometry with a convolutional network[C].

    作者提出基於端到端的深度神經網絡架構用於預測相機速度和方向變化。主要特點是:利用單一類型的計算模塊和學習規則提取視覺運動和深度信息以及里程計信息。分爲兩個步驟:圖像序列深度和運動信息的提取、圖像序列速度和方向改變估計。

  • Costante G, Mancini M, Valigi P, et al. Exploring representation learning with CNNs for frame-to-frame ego-motion estimation[J].

    作者利用卷積神經網絡學習圖像數據的最優特徵表示進行視覺里程計估計,該算法在圖像運動模糊、光照變化方面的魯棒性。缺點是,速度過快時,算法誤差大,訓練集缺乏高速訓練樣本造成估計的旋轉誤差大。

2.2 深度學習與閉環檢測

基於深度學習的方法利用深度神經網絡提取圖像特徵,表達圖像信息更充分,對光照等環境變化有更強的魯棒性。

  • Chen Z T, Lam O, Jacobson A, et al. Convolutional neural network-based place recognition[EB/OL].

    作者首次提出基於 CNN 模型的位置識別技術,通過 CNN 學習圖像特徵表示,提高閉環檢測準確率。作者利用各層特徵構造混合矩陣來比較神經網絡每層圖像特徵在場景識別上的性能差別。

  • Hou Y, Zhang H, Zhou S L. Convolutional neural networkbased image representation for visual loop closure detection[C].

    作者利用 caffe 框架下的 AlexNet 模型進行特徵提取,發現在光照變化明顯環境下,深度學習的特徵描述魯棒性更強,且速度更快。

2、在傳統 SLAM 之上加入語義信息

語義地圖構建與圖像語義分割

建圖時識別獨立個體,獲取其位置、姿態等語義信息。可預知物體的可移動屬性;相似物體知識表示可共享;實現智能路徑規劃。

  • Sunderhauf N, Pham T, Latif Y, et al. Meaningful maps ¨ – Object-oriented semantic mapping[EB/OL]. (2016-9-26) [2016-11-10]

在這裏插入圖片描述

作者提出面向物體對象的語義建圖方法:首先用 ORB-SLAM2 得到點雲地圖;其次採用基於卷積神經網絡的單詞拍攝多邊界框檢測(SSD)方法,進行物體檢測與識別;再對目標點雲分割;最後基於最近鄰的物體數據關聯。語義地圖最終包括:關鍵幀的點雲數據;地圖中物體點雲分割和對應關鍵幀的關係;語義信息。

  • Li X, Belaroussi R. Semi-dense 3D semantic mapping from monocular SLAM[EB/OL].

    作者提出基於 CNN 和 LSD-SLAM 的單目半稠密三維語義建圖構建方法。選取關鍵幀後利用 CNN 架構進行像素級分類,再用貝葉斯升級像素分類概率預測,進行地圖的噪聲平滑。

3、端到端SLAM 結合深度增強學習 DRL

使用DRL深度加強學習實現機器人自主導航

  • Target-driven Visual Navigation in Indoor Scenes using Deep Reinforcement Learning

    Li Feifei 組使用深度增強學習實現目標驅動的視覺導航。通過構建仿真環境進行訓練,可遷移到真實場景中。文章採用了 A3C 算法,將目標圖像作爲輸入,可以使這個網絡不管輸入什麼目標都能尋找物品,具備通用性。

  深度增強學習實現目標驅動的視覺導航。通過構建仿真環境進行訓練,可遷移到真實場景中。文章採用了 A3C 算法,將目標圖像作爲輸入,可以使這個網絡不管輸入什麼目標都能尋找物品,具備通用性。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章