[論文學習]複雜環境下視覺 SLAM 閉環檢測方法綜述

目錄

引言

專業背景

技術背景

場景描述

局部描述子

全局描述子

局部區域的全局描述子

結合深度信息的場景描述

場景的時變描述

決策模型

決策模型建立


作者:劉 強,段富海,桑勇,趙健龍

摘 要:隨着無人駕駛技術和虛擬現實技術的快速發展,近幾年視覺同時定位與建圖(SLAM)成爲研究熱點.本文針對複雜環境下視覺 SLAM 閉環檢測的 3 個主要問題,場景描述、決策模型和閉環檢測性能評價展開綜述.首先,介紹了基於經典圖像特徵、深度學習、深度信息以及時變地圖的場景描述方法,並詳細分析了不同方法的優缺點.其次,概述了在基於場景描述的閉環識別過程中常用的一些決策模型,着重介紹了概率模型和序列匹配.再次,說明了閉環檢測的性能評價方法,並分析了其與後端優化的聯繫.最後,圍繞深度學習、後端優化和多種描述子融合等關鍵點,展望了有助於推動閉環檢測技術未來發展的方向.

引言

專業背景

1.視覺SLAM 具有感知能力和重定位能力更強、安裝方式多元化、更加廉價等優勢。

2.如何設計更加魯棒、更加可靠的系統,以應對複雜多變的環境,成爲目前視覺 SLAM 研究的主題。

3.一些方案沒有從根本上消除錯誤閉環帶來的影響,而且加重了優化後端的計算負擔。

技術背景

1.光照變化、季節更替、 動態場景、 視角變化等因素(見圖 1)會大大降低檢測的準確率和召回率。

2.新的觀測信息到來時,先將其轉化爲對場景的描述,然後和地圖信息進行比對,最後通過決策模型來對閉環進行識別。

3.評價內容:場景描述、決策模型和閉環性能

ps. 圖像數據庫、地圖點的拓撲信息和度量信息、路標點的幾何信息一起構成了對地圖的描述.拓撲信息是指機器人運動的連續性,相鄰的圖像代表着地圖上鄰近的地方;度量信息是指場景之間的相對位置和方向信息;幾何信息是指圖像特徵的 3 維信息及其數據關聯。

場景描述

場景描述方法主要包括:(1) 局部特徵描述子;(2) 全局描述子;(3) 局部區域的全局描述子;(4) 結合深度信息的場景描述;(5) 場景的時變描述。

局部描述子

SIFT(scale-invariant feature transform)。後來發展的算法比如 Bay等提出的 SURF(speeded-up robust feature)算法、 Rublee等提出的 ORB(oriented FAST and rotated BRIEF)算法大多以犧牲性能爲代價來提高效率。

Sivic等提出的視覺詞袋模型 離線將大量特徵的描述子進行聚類,最終形成視覺詞彙,這樣每一副圖片就可用 1 個二進制向量來表示,向量的長度是視覺詞彙的總個數,圖像間共享詞彙的數量用以度量圖像間的相似度,避免了極其耗時的特徵匹配過程。發展:空間離散化[Galvez-López D, Tardos J D. Bags of binary words for fast place recognition in image sequences[J]. IEEE Transactions on
Robotics, 2012, 28(5): 1188-1197.],在線化[Angeli A, Doncieux S, Meyer J A, et al. Incremental vision-based topological SLAM[C] //IEEE International Conference on Intelligent Robots and Systems. Piscataway, USA: IEEE, 2011:1031-1036]。

適應環境變化:引入幾何信息來加強對場景的描述

自特徵與自提取。。。

全局描述子

使用全局描述子的方法直接去計算整張圖像的描述子。

Oliva等提出的 Gist 描述子:濾波器在不同方向和頻率下提取圖像信息並壓縮成 1 個向量來得到圖像的描述。

Kröse等直接用 PCA:降維方法生成線性圖像特徵,然後利用該特徵建立基於高斯分佈的觀測模型。

Lowry使用在線學習。

Ulrich等則採用全景彩色圖片的直方圖結合最鄰近學習來進行圖像匹配。

Sunderhauf等先對圖像進行下采樣,然後圍繞下采樣後的圖像中心計算 BRIEF。

 

目前向深度學習法發展。

Sunderhauf低層外觀,高層視角,閉環檢測。[Sunderhauf N, Shirazi S, Dayoub F, et al. On the performance of ConvNet features for place recognition[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscat-away, USA: IEEE, 2015: 4297- 4304.]

不利於閉環:閉環檢測的相似度計算應該集中於靜態事物上才能應對場景的變化,3 種常用思路:(1) 微調現有的 CNN;(2) 重新設計 CNN;(3) 採用語義分割對動態和靜態場景進行分離.

AlexNet 對應的熱圖中,值較大的地方多對應着原圖中圓環、汽車這些有利於進行圖像分類的事物。

思路:

(1)第 1 種是對原有的神經網絡進行微調使其適應閉環檢測任務例如 Arandjelovic等使用局部聚合特徵描述,輸出池化層。

(2)第 2 種思路是重新訓練 CNN 來生成圖像描述子.Lopez-Antequera等設計的 CNN 將 1 張圖像映射成 128 維的向量。

前 2 種基於學習的方法雖然在訓練的數據集上取得了較好的效果,但在面對新環境時其泛化能力仍然有待提高。

(3)第 3 種方法是用語義分割將圖像分成幾何穩定和幾何不穩定的區域.Naseer等採用基於 FastNet 網絡結構的全卷積神經網絡對圖像進行二進制分割,分割後的圖像和原始圖像通過現有分類網絡的 conv3 分別生成描述子,最後將 2 個描述子進行聚合,以生成當前場景的描述。

不適合:同時出現外觀變和視角變。必須要結合其他方法才能獲得應用,例如視角合成和序列匹配。

局部區域的全局描述子

局部特徵點描述子和全局描述子優勢互補。

生成局部區域:固定方格法,基於特徵點的方法,基於圖像分割的方法,基於物體提案的方法。

基於特徵點的方法以特徵點爲中心生成圖像區域,區域大小由特徵點被探測到時對應的最大尺度空間和一個放大因子決定。
基於圖像分割的方法根據一定的閾值將具有相似性質的圖像區域劃分爲一個圖像塊。

物體提案是其中比較特殊的一種方法,它源自目標識別.物體提案法在圖像上生成一系列大小不一的候選框。

結合深度信息的場景描述

深度信息結合語義分割可生成更高級的語義特徵來描述場景,從而增強對環境的認知能力。

對閉環檢測而言,由深度信息結合圖像信息建立的語義特徵,不僅增強了對外觀變化和視角變化的適應能力,而且簡化了地圖描述,節省了存儲空間,因爲語義地圖只需要存儲特徵的語義標籤即可,而不是整個 3 維信息。

場景的時變描述

當現實環境發生諸如晝夜更替、街道拆遷、季節變換等較大變化時。生成不同時間段下的描述子。另一
種方法是直接用不同時間段的觀測信息來代表同一個地點。

決策模型

如何建立決策模型來根據當前場景描述和地圖信息識別出可能的閉環。最簡單的建模方法是將閉環檢測看作是圖像檢索問題,而不考慮地圖的拓撲信息和度量信息。FAB-MAP 2.0 使用反索引結構來存儲地圖描述信息[Biber P, Duckett T. Experimental analysis of sample-based maps for long-term SLAM[J]. International Journal of Robotics Research, 2009, 28(1): 20-33.]每一個詞彙下存儲擁有該詞彙的圖片,而並非每一張圖片下存儲其擁有的詞彙,這使得搜尋空間的規模只和詞彙數量有關,而不受地圖規模的限制。

決策模型建立

拓撲依賴拓撲信息和圖像信息的方法,GPS 的精度也會受到環境的限制。

概率模型

閉環檢測的任務是根據當前觀測信息和地圖信息檢測機器人是否回到之前到過的地方.從概率的角度出發,就是要生成概率分佈,每一個點的概率代表機器人回到地圖上某一點的可能性。

貝葉斯模型,它主要包含先驗模型和觀測模型 2 部分。---need一是它們都需要一種監督訓練的方法來學習觀測模型的參數,二是而實際的閉環檢測還需要應對誤匹配的問題。

Cummins等提出的 FAB-MAP 算法是一種基於詞袋模型和貝葉斯模型的方法,它一定程度上解決了上述方法存在的一些問題。

基於 Chow Liu樹的生成模型,使得 FAB-MAP 在進行閉環檢測,考慮了共享詞彙,而且考慮了高頻詞彙造成的圖像混淆問題時。

序列匹配模型

拓撲信息最直觀的方法是採用序列匹配。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章