RGB-D SLAM系統評估的基準---TUM

翻譯:A Benchmark for the Evaluation of RGB-D SLAM Systems

原文鏈接:https://www.researchgate.net/publication/261353760_A_benchmark_for_the_evaluation_of_RGB-D_SLAM_systems

摘要:

本文提出了一種用於RGB-D SLAM系統評估的新的基準。我們用運動捕捉系統的高精度、時間同步的地面真相相相機姿態記錄了來自微軟Kinect的大量圖像序列。在視頻幀速率(30赫茲)中,序列包含全傳感器分辨率(640×480)的顏色和深度圖像。從八個高速跟蹤攝像機(100 Hz)的運動捕捉系統獲得地面真實軌跡。數據集由記錄在辦公室環境和工業大廳中的39個序列組成。數據集涵蓋了大量的場景和相機運動。我們提供的序列與緩慢運動調試以及更長的軌跡有無閉環。大多數序列是從手持Kinect中記錄的,具有不受限制的6自由度運動,但我們還提供了安裝在先鋒3機器人上的Kinect的序列,該Kinect是在雜亂的室內環境中手動導航的。爲了促進不同方法的比較,我們提供了用於視覺里程計系統漂移評估和SLAM系統全局姿態誤差評估的自動評估工具。基準網站[1]包含所有數據、場景的詳細描述、數據格式的規範、示例代碼和評估工具。

介紹

公共數據集和基準極大地支持了對算法的科學評價和客觀比較。在計算機視覺領域中成功的基準測試的幾個例子已經表明,公共數據集和清晰的評估度量可以顯著地幫助推動最先進的狀態。在機器人技術中,一個高度相關的問題是所謂的同時定位(SLAM)問題,其目標是從傳感器數據中恢復相機軌跡和地圖。SLAM問題已經被詳細研究了傳感器,如聲納、激光、攝像機和飛行時間傳感器。最近,新型低成本的RGB-D傳感器,例如Kinect變得可用,並且使用這些傳感器的第一SLAM系統已經出現[2]–[4]。其他算法專注於融合深度圖到相干3D模型〔5〕。然而,所計算的3D模型的精度很大程度上取決於如何精確地確定個體相機姿態。有了這個數據集,我們提供了一個完整的基準,可以用來評估在RGB-D數據上的視覺SLAM和測距系統。爲了刺激比較,我們提出兩個評價指標,並提供自動評估工具。

我們的數據集包括39個序列,我們記錄在兩個不同的室內環境。每個序列包含顏色和深度圖像,以及來自運動捕捉系統的地面真實軌跡。我們仔細校準和時間同步Kinect傳感器到運動捕捉系統。校準後,我們測量運動捕捉系統的精度,以驗證校準。所有數據可在創作共享屬性許可證(CC-3)網上獲得。

http://vision.in.tum.de/data/datasets/rgbd-dataset

該網站包含關於數據格式、校準數據和示例代碼視頻的附加信息,以便對數據集進行簡單的視覺檢查。

相關工作

同時定位和映射(或結構efrom-.)問題在機器人[6]-[12]和計算機視覺[9],[13]-[16]中都有很長的歷史。過去已經探索了不同的傳感器模式,包括2D激光掃描儀[17]、[18]、3D掃描儀[19]-[21]、單目相機[9]、[14]-[16]、[22]-[24]、立體聲系統[25]、[26]以及最近RGB-D傳感器,例如Microsoft Kinect[2]-[4]。

        激光和攝像機的SLAM系統,有幾個著名的數據集,如Freiburg、因特爾、rawseeds和newcollege集[ 27 ]–[29 ]。蓋革等人。〔30〕最近提出了一種基於地面真實姿態的立體圖像的視覺測徑基準。然而,沒有提供深度圖,因此需要額外的預處理步驟。波梅洛等。〔31〕在運動捕捉工作室中記錄了來自Kinect的無紋理點雲的數據集。也有相關的鮑等人的工作。[32 ] WHO旨在評估語義映射和定位方法。然而,在他們的數據集從Kinect相機姿態估計的彩色圖像,使地面真理是不夠準確的爲我們的目的。據我們所知,因此,我們的數據集是適合視覺SLAM的評價第一RGB-D數據集(和視覺里程計)系統,因爲它包含的顏色和深度圖像和相關的地面真實相機的姿勢。我們的基準的早期版本是最近提出的[ 33 ]。從我們收到的反饋,我們擴展了原有的數據集的動態序列,更長的軌跡,並從安裝在移動機器人Kinect記錄序列。

        僅次於數據本身,SLAM解決方案的基準測試需要合適的評估度量。一個常用的評價指標,甚至不需要地面真理是衡量內在的錯誤後,地圖優化,如重投影誤差或者,更普遍的是,2的χ錯誤[ 12 ],[ 34 ]。然而,明顯低χ2錯誤不保證良好的地圖或軌跡的準確估計,平凡不使用任何傳感器的數據導致零誤差。因此,從實踐的角度,我們提倡類似於奧爾森等人。[ 34 ]:通過比較其輸出評估整個系統的端到端性能(地圖或軌跡)與地面的真相。例如,地圖可以通過疊加在樓層平面圖上並搜索差異來進行評估。雖然,在原則上,差分圖像兩者之間的映射可以自動計算[ 35 ],往往表現爲只有肉眼判斷尋找薄結構,扭結或鬼像雙壁。

        地圖比較的選擇是通過比較估計攝像機運動軌跡與真實評價SLAM系統。兩種常用的方法是相對位姿誤差(RPE)和絕對軌跡誤差(ATE)。RPE測量估計運動與真實運動之間的差異。它可以用來評估一個視覺測距系統[ 36 ]或閉合環的SLAM系統[ 37 ]精度的漂移,[ 38 ]如果只有稀疏尤其有用,相對關係可作爲地面真理。而不是評估相對構成差異,ATE首先對齊兩軌跡並評價直接絕對構成差異。這種方法很適合視覺SLAM系統[ 34 ] [ 39 ]的評價,但需要絕對的真實姿態是可用的。當我們提供密集和絕對地面真理軌跡,這兩種度量是適用的。對於這兩種措施,我們提供了一個參考實現,計算各自的錯誤估計與地面真實軌跡。

        在本文中,我們提出了一個新的基準評估的視覺SLAM和視覺測距系統上的RGB-D數據。靈感來自於成功的基準,在計算機視覺等明德光流數據[ 40 ]和[ 30 ]在視覺的基準測試套件,我們打出了集分爲訓練和測試的一部分。當訓練序列進行離線評估完全可用,測試序列只能評估基準網站[ 1 ]避免過度擬合。

 

 數據集

Kinect傳感器由近紅外激光、紅外攝像機和彩色攝像機組成,近紅外激光將折射圖案投射到場景中。由於投影模式是已知的,有可能使用塊匹配技術來計算視差。注意,圖像校正和塊匹配在硬件中實現並且在傳感器內部發生。

我們從Kinect獲得了包含RGB-D數據和從運動捕獲系統獲得的地面真實姿態估計的大量數據序列。我們在典型的辦公環境(“fr1”,6×6m2)和大型工業大廳(“fr2”,10×12m2)中記錄了這些軌跡,如圖1所示。在大多數錄音中,我們使用手持式Kinect來瀏覽場景。此外,我們還記錄了安裝在輪式機器人上的Kinect的附加序列。表I總結了19個訓練序列的統計數據,圖2顯示了四的圖像。

它們伴隨着相應的攝像機軌跡。平均而言,FR1序列的相機速度高於FR2的相機速度。除了特別指出之外,我們確保每個序列包含幾個循環閉合,以允許SLAM系統識別之前訪問過的區域,並使用它來減少相機漂移。我們將記錄的序列分爲“校準”、“測試和調試”、“手持式SLAM”和“機器人SLAM”。

在下文中,我們簡要總結了根據這些類別的記錄序列。

a)校準:爲了校準Kinect和運動捕獲系統的內部和外部參數,我們爲每個Kinect記錄

●一個序列,帶有由固定Kinect記錄的具有20mm平方尺寸的手持式8×6棋盤的顏色和深度圖像,

●用一個固定的Kinect記錄一個手持8×6棋盤的具有20平方毫米大小的紅外圖像的一個序列,

●一個序列,帶有由手持Kinect記錄的108mm正方形的8×7固定棋盤的顏色和深度圖像。

b)測試和調試:這些序列旨在促進沿Kinect主軸和圍繞Kinect主軸分別運動的新算法的開發。在“xyz”序列中,相機大致沿着X-、Y-和Z-軸(左/右、上/下、前/後)移動,幾乎沒有轉動部件(參見圖2a)。類似地,在兩個“rpy”(搖擺-俯仰-偏航)序列中,相機大多僅圍繞主軸旋轉,幾乎沒有平移運動。

C)手持式SLAM:我們用手持式Kinect,即6自由度攝像機運動記錄了11個序列。對於“FR1/360”序列,我們通過在房間的中心搖動Kinect來覆蓋整個辦公室。“FR1/地板”序列包含相機掃過木地板。“fr1/desk”、“fr1/desk2”和“fr1/.”序列分別覆蓋兩張桌子、四張桌子和整個房間(參見圖2b)。在“fr2/360半球”序列中,我們在現場旋轉Kinect,並將其指向工業大廳的牆壁和天花板。在“fr2/360綁架”序列中,我們用手簡單地覆蓋傳感器幾秒鐘,以測試SLAM系統從傳感器故障中恢復的能力。對於“fr2/desk”序列,我們在運動捕捉區域中間設置了一個辦公環境,該環境由兩個表組成,這些表具有各種附件,如監視器、鍵盤、書籍,參見圖2c。在一個課桌上,不斷地移動幾個物體。

此外,我們記錄了兩個大型旅行通過工業大廳,部分具有較差的照明和很少的視覺特徵。在“FR2/大無迴路”序列中,特別注意在軌跡中不存在視覺重疊。我們的目的是提供一個序列來測量長期漂移(否則循環閉合)SLAM系統。相反,“fr2/.with.”序列在序列的開始和結束之間有很大的重疊,因此存在較大的循環。應該指出的是,這些遊覽是如此之大,以至於我們不得不離開工業大廳中間的運動捕捉區。因此,地面真實姿態信息只存在於序列的開始和結束。

D)機器人SLAM:我們還記錄了四個序列,其中Kinect安裝在ActudiMeLoad先鋒3機器人上(見圖1D)。有了這些序列,就有可能證明SLAM系統對輪式機器人的適用性。我們把Kinect水平對準,向前看機器人的驅動方向,這樣地平線大致位於圖像的中心。注意,Kinect的運動並不嚴格限於平面,因爲偶爾的震動(由於地板上的顛簸和電線的結果)偏轉了Kinect的方向。在記錄過程中,我們手動通過場景手動操縱機器人。

在“FR2/先鋒360”序列中,我們駕駛機器人繞着(主要是)空大廳的中心兜圈子。由於大廳的大尺寸,Kinect不能觀察到部分序列的遠壁的深度。此外,我們在大廳中設置了一個搜索和救援場景,該場景由幾個辦公容器、箱子和其他功能較差的對象組成,參見圖2d。因此,這些序列具有深度,但是對於依賴於特定關鍵點的方法極具挑戰性。三個序列“fr2/pioneer slam”、“fr2/pioneer slam2”和“fr2/pioneer slam3”在實際軌跡上不同,但是都包含幾個循環閉包。

數據採集

所有數據都以全分辨率(640×480)和全幀速率(30Hz)記錄在Linux筆記本電腦上,運行Ubuntu 10.10和ROS Diamondback。爲了記錄RGB-D數據,我們使用了兩個不同的現成的Microsoft Kinect傳感器(一個用於“fr1”序列,另一個用於“fr2”)。爲了訪問顏色和深度圖像,我們在ROS中使用openni相機包,它內部包裝PrimeSense的OpenNI驅動程序[41]。由於從兩個不同的照相機觀察深度圖像和彩色圖像,所以所觀察(原始)圖像最初不對準。爲了達到這個目的,OpenNI驅動程序可以自動地使用Z緩衝器將深度圖像註冊到彩色圖像。這是通過將深度圖像投影到3D並隨後將其投影到彩色攝像機的視圖來實現的。OpenNI驅動程序用於此註冊,工廠校準存儲在內部存儲器上。此外,我們使用Kinect Aux驅動程序記錄Kinect在500赫茲的加速度計數據。

爲了獲得Kinect傳感器的相機姿態,我們使用了來自運動分析(42)的外部運動捕捉系統。我們的設置包括八個RAPTRO-E相機,相機分辨率高達1280×1024像素,高達300赫茲(見圖3A)。運動捕捉系統通過三角測量跟蹤被動標記的三維位置。爲了增強這些標記的對比度,運動捕捉相機配備有紅外LED來照亮場景。我們驗證了Kinect和運動捕獲系統不干擾:運動捕獲LED在Kinect紅外圖像中表現爲暗燈,對生成的深度圖沒有影響,而Kinect的投影儀完全沒有被運動捕獲相機檢測到。最後,我們還用外部攝像機錄下了所有實驗,從不同的角度捕捉攝像機的運動和場景。所有的序列和電影可在我們的網站[ 1 ]。

文件格式、工具和示例代碼

每個序列作爲單個壓縮TGZ存檔提供,它由以下文件和文件夾組成:

“RGB//”:一個包含所有彩色圖像的文件夾(PNG格式,3個通道,每個通道8位),

“depth/”:深度圖像相同(PNG格式,1通道,每通道16位,按係數縮放的距離爲5000),

“RGB .txt”:一個文本文件,具有連續的所有彩色圖像列表(格式:時間戳文件名),

“depth.txt”:與深度圖像相同(格式:時間戳文件名),

“IMU.TXT”:包含時間戳加速度計數據的文本文件(格式:時間戳FX FY FZ),

•“groundtruth..txt”:包含作爲時間戳翻譯向量和單位四元數(格式:timestamp tx ty tz qy qz qw)存儲的地面真實軌跡的文本文件。

此外,所有序列還可以以ROS包格式1和移動機器人編程工具包(MRPT)2的羅拉格格式獲得。此外,我們提供了一套有用的工具和示例代碼在我們的網站上的數據關聯,評估和轉換[ 1 ]。

 校準與同步

我們設置的所有組件,即彩色相機、深度傳感器、運動捕捉系統都需要內部和外部校準。此外,由於各個傳感器的預處理、緩衝和數據傳輸中的時間延遲,傳感器消息的時間戳需要同步。

A.運動捕捉系統校準

我們使用運動分析軟件(42)提供的皮層軟件對運動捕捉系統進行校準。如圖3b所示,校準過程需要在運動捕捉區域廣泛地揮動帶有三個標記的校準棒。從這些點對應,系統計算運動捕捉相機的姿態。爲了驗證此校準程序的結果,我們在兩端裝有長度約2米的金屬桿,並檢查其觀察長度在運動捕捉區域的不同位置是否恆定。這個實驗背後的想法是,如果並且僅當金屬棒的長度在場景的所有部分中是恆定的,那麼整個運動捕捉區域是歐幾里德的。在本實驗中,我們測量了棒子長度在整個運動捕捉區域7×7上的標準偏差1.96mm。由此和進一步的實驗,我們得出運動捕捉系統的位置估計是高度精確的、歐幾里德的並且隨時間是穩定的。

B.Kinect標定

接下來,我們使用OpenCV庫從“rgb”和“ir”校準序列估計彩色和紅外相機的內部相機參數。通過這種標定,我們得到了兩臺相機的焦距(fx/fy)、光學中心(cx/cy)和畸變參數。這些參數在Tab中得到了總結。二。其次,我們通過比較RGB圖像中棋盤上四個不同點的深度來驗證Kinect的深度測量。如圖4A所示,兩個Kinects的值不完全匹配。

由校準RGB相機的棋盤探測器計算的實際深度,但尺度略有不同。在Tab中給出了深度圖像的估計校正因子。二。我們已經將這個校正因子應用到數據集,因此不需要來自用戶的進一步動作。我們評估了深度值中的殘餘噪聲作爲棋盤的距離的函數。實驗的結果如圖4b所示。從圖中可以看出,深度值中的噪聲在1cm左右直到2m距離,在5cm左右在4m距離。Kinect校準和由此產生的精度的詳細分析最近已由SmiSek等人出版[43 ]。

C. Extrinsic校準

爲了跟蹤場景中的剛體(如Kinect傳感器或棋盤),運動捕獲系統需要至少三個反射標記。在我們的實驗中,我們在每個Kinect傳感器上附加了四個反射標記(參見圖1c+1d)和校準棋盤上的五個標記(參見圖5a)。我們將四個標記儘可能精確地放置在棋盤的外角,這樣就可以知道視覺棋盤和運動捕捉標記之間的轉換。給定這些點觀測值和點模型,我們可以計算它相對於運動捕獲系統的座標系的姿態。

我們測量了點觀測值與模型之間的平均誤差,在辦公室爲0.60mm(“fr1”),在工業大廳爲0.86mm(“fr2”)。考慮到這些噪聲值,我們估計誤差在0.34°和0.49°左右的估計方向上。雖然這個誤差相當低,但讀者應該記住,這意味着,在給定運動捕獲系統的姿態(假設當前爲無噪聲的深度圖像)的重建3D模型在距攝像機5米的距離內將分別具有30毫米和43毫米的誤差。因此,我們強調運動捕捉系統的姿態估計不能直接用於生成(或評估)場景的高精度3D模型。然而,對於視覺SLAM系統的軌跡精度評價,絕對的亞毫米波和亞度精度足夠高來評價當前(和潛在的未來)的藝術狀態的方法。

作爲下一個校準步驟,我們估計之間的位姿變換從運動捕捉系統和光學架的Kinect使用校準棋盤。我們驗證了我們的校準測量的棋盤的四個角點的距離作爲觀察到的RGB圖像的角點的動作捕捉系統預測。我們測量的平均誤差爲3.25毫米的“FR1”Kinect和4.03毫米的“FR2”Kinect。請注意,這些殘留物含有噪聲的運動捕捉系統誘導視覺棋盤檢測引起的噪聲。關於

高精度的運動捕捉系統,我們將這些誤差主要歸因於棋盤檢波器的(零均值)噪聲。

根據我們在校準期間獲得的測量結果,我們得出結論,在地面真值數據中,幀到幀的相對誤差低於在Kinect的光學中心測量的1mm和0.5°。此外,整個運動捕捉區域的絕對誤差小於10mm和0.5°,因此,只要這些系統具有(RPE和ATE)明顯高於這些值的誤差,我們的數據集對於評估視覺里程計和可視化SLAM系統的性能是有效的。

D.時間同步

我們使用相同的方法確定運動捕獲系統和Kinect的彩色相機之間的時間延遲,即,我們評估不同時間延遲的殘差以確定延遲(參見圖5b)。在這個實驗中,我們發現來自運動捕捉系統的姿態比Kinect的彩色圖像早大約20ms。我們已經在數據集中對這個延遲進行了校正,因此用戶不需要進一步的動作。

Kinect遞送的顏色和深度圖像之間也存在小的時間延遲。在對我們自己的SLAM和視覺里程計系統進行評估時,我們發現深度圖像平均比彩色圖像晚20ms左右。然而,我們決定保持未修改的時間戳的顏色和深度圖像在數據集。爲了簡化用戶對顏色和深度圖像的關聯,我們提供了“associate.py”腳本,該腳本根據用戶偏好(如時間偏移和最大時差)輸出顏色和深度圖像對。

用戶應該記住的圖像數據中的另一個挑戰是,Kinect爲彩色相機使用滾動快門,當相機快速移動時可能導致圖像失真。由於Kinect根據場景照明自動選擇曝光時間,因此這種效果的強度在數據集中的一些序列中可以顯著變化。

評價指標

SLAM系統通常輸出所估計的攝像機軌跡以及所得到的MAP的估計。雖然原則上可以評估所得地圖的質量,但是很難獲得準確的地面真值圖。因此,我們建議從給定的RGBD圖像的輸入序列來估計估計軌跡的質量。該方法大大簡化了評價過程。然而,應當指出,好的軌跡並不一定意味着好的地圖,例如,即使地圖上的一個小錯誤也可能阻止機器人在環境(門口的障礙)中工作。對於評估,我們假設我們從估計軌跡P1,給出了一系列姿態。…PN-SE(3)和地面真實軌跡Q1,。…,QN SE(3)。爲了簡化記法,我們假設序列是時間同步的,均等地採樣,並且都具有長度n。實際上,這兩個序列通常具有不同的採樣率、長度和潛在的缺失數據,因此額外的數據關聯和插值步驟是r相等的。這兩個序列由表示RGB光學幀的姿態的齊次變換矩陣組成。

Kinect從(任意)參考幀。對於兩個序列,該參考幀不必相同,即,估計序列可以始於原點,而地面真值序列是在校準期間定義的絕對座標幀。雖然原則上,Kinect上的參考幀的選擇也是任意的,但我們決定使用RGB光學幀作爲參考,因爲我們數據集中的深度圖像已經註冊到這個幀中。在本節的其餘部分,我們定義了兩種常用的視覺測距和視覺SLAM評價的評價指標。對於兩個評估度量,我們提供易於使用的評估腳本,以便在我們的網站上下載,以及該腳本的在線版本,以簡化和標準化用戶的評估過程。

A 相對位姿誤差(RPE)

相對位姿誤差在一定的時間間隔內測量軌跡的局部精度。因此,相對位姿誤差對應的軌跡,這是特別有用的視覺里程計系統評價的漂移。在時間步長I中定義相對位姿誤差。

從N個攝像機姿態序列中,我們得到了沿序列的m=n=個體相對位姿誤差。根據這些誤差,我們建議計算平移分量的所有時間索引上的均方根誤差(RMSE),如

其中反式(EI)指的是相對位姿誤差Ei的平移分量。應該指出的是,一些研究者更喜歡評估平均誤差,而不是對離羣值影響較小的均方根誤差。或者,也可以計算中值而不是均值,這對離羣值的影響更小。如果需要,還可以評估旋轉誤差,但是通常我們發現通過平移誤差的比較就足夠了(因爲當相機移動時,旋轉誤差表現爲平移誤差)。

此外,還需要選擇時間參數。對於匹配連續幀的視覺里程測量系統,=1是一個直觀的選擇;然後RMSE(E1:n)給出漂移perframe。對於使用多於一個先前幀的系統,較大的_值也可以是適當的,例如,=30給出以30Hz記錄的序列的每秒漂移。應當注意,一個常見的(但是很糟糕的)選擇是設置=n,這意味着開始點與結束點直接進行比較。這個度量可能會產生誤導,因爲它懲罰了軌跡開始時的旋轉誤差,而不是朝向終點[37]、[45]。對於SLAM系統的評估,因此平均而言是有意義的。

可能的時間間隔,即,計算

注意,該表達式的計算複雜度在軌跡長度上是二次的。因此,我們建議通過從固定的相對姿態樣本中計算它來近似它。我們的自動評估腳本允許精確的評估以及對給定數量的樣本的近似。在圖6中給出了相對位姿誤差的一個例子。這裏,相對姿態誤差已經被評估爲兩個視覺測徑方法〔44〕。從這個圖中可以看出,與GICP相比,RBM方法具有更低的漂移和更少的離羣值。

B:絕對軌跡誤差(ATE)

另外,對於視覺SLAM系統,估計軌跡的全局一致性是一個重要的量。全局一致性可以通過比較估計和地面真實軌跡之間的絕對距離來評估。由於兩個軌跡都可以在任意座標系中指定,所以它們首先需要對齊。這可以使用HORM〔46〕的方法在閉合形式下實現,它找到剛體變換S對應於最小二乘解,該映射將估計軌跡P1:N映射到地面真軌跡Q1:n。步驟i可以計算爲

與相對位姿誤差相似,我們建議在平移分量的所有時間指標上計算均方根誤差,即,

在圖7a中給出了絕對軌跡誤差的可視化表示。

或者,也可以使用RPE通過平均所有可能的時間間隔來評估軌跡的全局誤差。注意,RPE考慮平移和旋轉誤差,而ATE只考慮平移誤差。結果,RPE總是比ATE稍大(或者如果沒有旋轉誤差相等)。這在圖7b中也是可視化的,其中RPE和ATE都是根據RGB-D SLAM系統的各種估計軌跡計算的。因此,RPE度量提供了一種優雅的方式將旋轉和平移誤差合併成一個單一的度量。然而,旋轉誤差通常也以錯誤的翻譯表現出來,因此也間接地被ATE捕獲。從實用的角度來看,ATE具有直觀的可視化,便於視覺檢查。然而,這兩個指標是緊密相關的:在我們的所有實驗中,我們從未遇到使用RPE和ATE的情況之間的實質性差異。事實上,通常相對順序與實際使用的方法保持獨立。

結論

在本文中,我們提出了一個基準的RGB-D SLAM系統的評價。數據集包含彩色圖像、深度圖和相關地面真實攝像機姿態信息。此外,我們提出了兩個評估指標,可用於評估視覺里程計和可視化SLAM系統的性能。精確的校準和嚴格的驗證確保了所得到的數據集的高質量。我們通過對自己最近的方法[44]、[47]的評價來驗證數據集和相應的評估度量的有效性。最後,我們提出了一個高質量的數據集,它具有一組合適的評估度量,構成了一個可視化SLAM系統評估的完整基準。

致謝

作者想感謝Jorg M·Uulle和米迦勒·Runnk的幫助和支持與運動捕捉系統。此外,我們感謝弗蘭克·斯坦布魯克、雷納·庫默爾、聖伊潘·馬格納特、弗朗西斯·科拉斯和弗朗索瓦·波默洛富有成果的討論。我們還感謝Jose Luis Blanco通過將數據集轉換爲RAWLOG格式,使得移動機器人編程工具包(MRPT)的用戶能夠使用我們的數據集。

參考文獻

[1] http://vision.in.tum.de/data/datasets/rgbd-dataset.
[2] P. Henry, M. Krainin, E. Herbst, X. Ren, and D. Fox, “RGB-D mapping: Using depth cameras for dense 3D modeling of indoor environments,” in Intl. Symp. on Experimental Robotics (ISER), 2010.
[3] N. Engelhard, F. Endres, J. Hess, J. Sturm, and W. Burgard, “Realtime 3D visual SLAM with a hand-held RGB-D camera,” in RGB-D Workshop on 3D Perception in Robotics at the European Robotics Forum, 2011.
[4] C. Audras, A. Comport, M. Meilland, and P. Rives, “Real-time dense appearance-based SLAM for RGB-D sensors,” in Australasian Conf. on Robotics and Automation, 2011.
[5] R. Newcombe, S. Izadi, O. Hilliges, D. Molyneaux, D. Kim, A. Davison, P. Kohli, J. Shotton, S. Hodges, and A. Fitzgibbon, “KinectFusion: Real-time dense surface mapping and tracking,” in Intl. Symposium on Mixed and Augmented Reality (ISMAR), 2011.
[6] F. Lu and E. Milios, “Globally consistent range scan alignment for environment mapping,” Autonomous Robots, vol. 4, no. 4, pp. 333– 349, 1997.
[7] F. Dellaert, “Square root SAM,” in Proc. of Robotics: Science and Systems (RSS), Cambridge, MA, USA, 2005.
[8] E. Olson, J. Leonard, and S. Teller, “Fast iterative optimization of pose graphs with poor initial estimates,” in IEEE Intl. Conf. on Robotics and Automation (ICRA), 2006.
[9] G. Klein and D. Murray, “Parallel tracking and mapping for small AR workspaces,” in IEEE and ACM Intl. Symposium on Mixed and Augmented Reality (ISMAR), 2007.
[10] M. Kaess, A. Ranganathan, and F. Dellaert, “iSAM: Incremental smoothing and mapping,” IEEE Trans. on Robotics, TRO, vol. 24, no. 6, pp. 1365–1378, Dec 2008.
[11] G. Grisetti, C. Stachniss, and W. Burgard, “Non-linear constraint network optimization for efficient map learning,” IEEE Transactions on Intelligent Transportation systems, vol. 10, no. 3, pp. 428–439, 2009.
[12] R. Kummerle, G. Grisetti, H. Strasdat, K. Konolige, and W. Bur- ¨ gard, “g2o: A general framework for graph optimization,” in IEEE Intl. Conf. on Robotics and Automation (ICRA), 2011.
[13] H. Jin, P. Favaro, and S. Soatto, “Real-time 3-D motion and structure of point features: Front-end system for vision-based control and interaction,” in IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2000.
[14] M. Pollefeys and L. Van Gool, “From images to 3D models,” Commun. ACM, vol. 45, pp. 50–55, July 2002.
[15] D. Nister, “Preemptive ransac for live structure and motion estimation,” ´Machine Vision and Applications, vol. 16, pp. 321–329, 2005.
[16] J. Stuhmer, S. Gumhold, and D. Cremers, “Real-time dense geometry ¨ from a handheld camera,” in DAGM Symposium on Pattern Recognition (DAGM), 2010.
[17] M. Montemerlo, S. Thrun, D. Koller, and B. Wegbreit, “FastSLAM:A factored solution to the simultaneous localization and mapping problem,” in Prof. of the National Conf. on Artificial Intelligence (AAAI), 2002.
[18] G. Grisetti, C. Stachniss, and W. Burgard, “Improved techniques for grid mapping with rao-blackwellized particle filters,” IEEE Transactions on Robotics (T-RO), vol. 23, pp. 34–46, 2007.
[19] A. Nuchter, K. Lingemann, J. Hertzberg, and H. Surmann, “6D SLAM ¨ – 3D mapping outdoor environments: Research articles,” J. Field Robot., vol. 24, pp. 699–722, August 2007.
[20] M. Magnusson, H. Andreasson, A. Nuchter, and A. Lilienthal, “Auto- ¨matic appearance-based loop detection from 3D laser data using the normal distributions transform,” Journal of Field Robotics, vol. 26, no.11–12, pp. 892–914, 2009.
[21] A. Segal, D. Haehnel, and S. Thrun, “Generalized-icp,” in Robotics: Science and Systems (RSS), 2009.
[22] K. Koeser, B. Bartczak, and R. Koch, “An analysis-by-synthesis camera tracking approach based on free-form surfaces,” in German Conf. on Pattern Recognition (DAGM), 2007.
[23] K. Konolige and J. Bowman, “Towards lifelong visual maps,” in IEEE/RSJ Intl. Conf. on Intelligent Robots and Systems (IROS), 2009.
[24] H. Strasdat, J. Montiel, and A. Davison, “Scale drift-aware large scale monocular SLAM,” in Proc. of Robotics: Science and Systems (RSS),2010.
[25] K. Konolige, M. Agrawal, R. Bolles, C. Cowan, M. Fischler, and B. Gerkey, “Outdoor mapping and navigation using stereo vision,” in Intl. Symp. on Experimental Robotics (ISER), 2007.
[26] A. Comport, E. Malis, and P. Rives, “Real-time quadrifocal visual odometry,” Intl. Journal of Robotics Research (IJRR), vol. 29, pp. 245–266, 2010.
[27] C. Stachniss, P. Beeson, D. Hahnel, M. Bosse, J. Leonard, ¨ B. Steder, R. Kummerle, C. Dornhege, M. Ruhnke, G. Grisetti, ¨ and A. Kleiner, “Laser-based SLAM datasets.” [Online]. Available: http://OpenSLAM.org
[28] “The Rawseeds project,” http://www.rawseeds.org/rs/datasets/.
[29] M. Smith, I. Baldwin, W. Churchill, R. Paul, and P. Newman, “The new college vision and laser data set,” Intl. Journal of Robotics Research (IJRR), vol. 28, no. 5, pp. 595–599, 2009.
[30] A. Geiger, P. Lenz, and R. Urtasun, “Are we ready for autonomous driving? the KITTI vision benchmark suite,” in IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), Providence, USA,
June 2012.
[31] F. Pomerleau, S. Magnenat, F. Colas, M. Liu, and R. Siegwart, “Tracking a depth camera: Parameter exploration for fast ICP,” in IEEE/RSJ Intl. Conf. on Intelligent Robots and Systems (IROS), 2011.
[32] S. Bao and S. Savarese, “Semantic structure from motion,” in IEEE Intl. Conf. on Computer Vision and Pattern Recognition (CVPR), 2011.
[33] J. Sturm, S. Magnenat, N. Engelhard, F. Pomerleau, F. Colas, W. Burgard, D. Cremers, and R. Siegwart, “Towards a benchmark for RGB-D SLAM evaluation,” in RGB-D Workshop on Advanced Reasoning with Depth Cameras at RSS, June 2011.
[34] E. Olson and M. Kaess, “Evaluating the performance of map optimization algorithms,” in RSS Workshop on Good Experimental Methodology in Robotics, 2009.
[35] R. Vincent, B. Limketkai, M. Eriksen, and T. De Candia, “SLAM in real applications,” in RSS Workshop on Automated SLAM Evaluation, 2011.
[36] K. Konolige, M. Agrawal, and J. Sola, “Large scale visual odometry ` for rough terrain,” in Intl. Symposium on Robotics Research (ISER), 2007.
[37] R. Kummerle, B. Steder, C. Dornhege, M. Ruhnke, G. Grisetti, ¨ C. Stachniss, and A. Kleiner, “On measuring the accuracy of SLAM algorithms,” Autonomous Robots, vol. 27, pp. 387–407, 2009.
[38] W. Burgard, C. Stachniss, G. Grisetti, B. Steder, R. Kummerle, ¨ C. Dornhege, M. Ruhnke, A. Kleiner, and J. Tardos, “A comparison ´ of SLAM algorithms based on a graph of relations,” in IEEE/RSJ Intl. Conf. on Intelligent Robots and Systems (IROS), 2009.
[39] W. Wulf, A. Nuchter, J. Hertzberg, and B. Wagner, “Ground truth ¨evaluation of large urban 6D SLAM,” in IEEE/RSJ Intl. Conf. on Intelligent Robots and Systems (IROS), 2007.
[40] S. Baker, D. Scharstein, J. Lewis, S. Roth, M. Black, and R. Szeliski, “A database and evaluation methodology for optical flow,” Intl. Journal of Computer Vision (IJCV), vol. 92, no. 1, 2011.
[41] PrimeSense, Willow Garage, SideKick and Asus, “Introducing OpenNI,” http://http://www.openni.org.
[42] MotionAnalysis, “Raptor-E Digital RealTime System,” http://www.motionanalysis.com/html/industrial/raptore.html.
[43] J. Smisek, M. Jancosek, and T. Pajdla, “3D with Kinect,” in ICCV Workshop on Consumer Depth Cameras for Computer Vision, 2011.
[44] F. Steinbrucker, J. Sturm, and D. Cremers, “Real-time visual odometry ¨from dense RGB-D images,” in ICCV Workshop on Live Dense Reconstruction with Moving Cameras, 2011.
[45] A. Kelly, “Linearized error propagation in odometry,” Intl. Journal of Robotics Research (IJRR), vol. 23, no. 2, 2004.
[46] B. Horn, “Closed-form solution of absolute orientation using unit quaternions,” Journal of the Optical Society of America A, vol. 4, pp. 629–642, 1987.
[47] F. Endres, J. Hess, N. Engelhard, J. Sturm, D. Cremers, and W. Burgard, “An evaluation of the RGB-D SLAM system,” in IEEE Intl. Conf. on Robotics and Automation (ICRA), 2012

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章