基於立體視覺SLAM系統的在線目標檢測與定位【論文解析】

Online Object Detection and Localization on Stereo Visual SLAM System【Journal of Intelligent & Robotic Systems (2020) 98:377–386】

摘要:

爲了在未知環境中導航,自主機器人必須能夠在周圍環境中繪製周圍環境的地圖 同時估算其位置。此問題稱爲SLAM。我們提出了用於立體攝像機的SLAM系統 在場景中建立對象的地圖。該系統基於SLAM方法S-PTAM和目標檢測模塊。對象檢測模塊使用深度學習進行在線檢測並提供3D姿勢估計輸入圖像中存在的物體的數量,而S-PTAM實時估計相機的姿勢。該系統在真實環境中進行了測試,實現了良好的對象定位效果。
原文鏈接

核心模塊:

1 RCNN Module (Object Detection)

使用Faster RCNN 對目標進行分割
在這裏插入圖片描述
上圖爲Faster Rcnn 模型的大致流程,使用了RPN網絡和卷積網絡交替訓練的方法找到感興趣的區域ROI。 該文作者在綠色框裏對姿態迴歸使用了和RCNN一樣的方法(兩個全鏈接層加上ReLU 和dropout)
關於RCNN等模型在我的另一篇博文裏 有詳細的描述
RCNN的詳細描述
下面是論文原文中對這個方法的描述

In the figure, Conv.Net summarizes the five convolutional stages of that model. Its outputs are used by a Region Proposal Network (RPN) to determine the Regions of Interest (ROI) where a pooling as in [7] is done. Several fully connected layers (fc) with a ReLU nonlinearity (ReLU (x) = max(0, x)) and trained with dropout (a technique to prevent overfitting [25]) are used to predict the desired values for each region. The new layers (highlighted in the figure) used in the pose regression follow the same scheme (fully connected + ReLU + dropout).

2. S-PTAM + Object Mapping

CNN輸出的檢測列表被髮送到對象映射模塊,在該模塊中,對象的姿態相對於S-PTAM處理的最近的關鍵幀進行估計,包括從二維邊界框、方向和大小。利用S-PTAM點雲數據進一步細化被測目標的位置,與地圖中已存在的對象執行數據關聯後,將執行數據融合以更新對象地圖。

Rough Object Pose Estimation

在這裏插入圖片描述
結合對象R、D和2D邊界框的估計,可以預測對象的3D邊界框。

該方法基於邊界立方體的投影應緊密貼合在邊界框中。該限制意味着2D檢測的每一側都必須與(至少)邊界立方體的一個頂點的投影重合。這給我們在邊界立方體上的4個約束。原則上,邊界立方體的角可以位於邊界框的任何一側,但是僅考慮俯仰角和橫滾角爲零的情況,可能的配置數減少爲64。最後,我們選擇位置T最小化關於邊界框約束的重投影誤差。一旦計算出對象的初始姿勢估計,我們就可以使用S-PTAM估計的定位來計算重建的地圖座標系中的對象姿勢。

The method is based on the fact that the projection of the bounding cube should fit tightly within the bounding box. This restriction means that each side of the 2D detection has to coincide with the projection of (at least) one of the vertices of the bounding cube. This gives us 4 constraints on the bounding cube. In principle, the corners of the bounding cube could lie on any side of the bounding box, but considering only the case where pitch and roll angles are zero, the number of possible configurations is reduced to 64. Finally, we choose the position T that minimizes the reprojection error with respect to the bounding box constraints. Once the initial pose estimation of the object is computed, we use the estimated localization by S-PTAM to compute the objects pose in the reconstructed map coordinate frame.

Object Matching

將圖像中的邊界立方體(藍色)投影,確定新檢測Bounding box的邊界框與投影到圖像平面Bp中的每個地圖對象之間的邊界框(紅色)交集(IoU)。將每個觀測值與期望觀測值最相似的對象相匹配。如果每個映射對象的IoU值小於等於給定的閾值,則認爲已檢測到新對象。在這裏插入圖片描述

Object Position Refinement

在這裏插入圖片描述

將每個對象與投影到圖像平面上最接近對象邊界框中心的映射點配對。只考慮在近似對象姿勢的給定半徑內的映射點。如果沒有映射點在物體附近,檢測的物體將被丟棄。

Fusion of Object Observations

所有這些觀測值的融合是通過在給定時刻內關鍵幀獲得每個參數的中值來完成,爲了考慮到網絡錯誤標記觀察結果的可能性,不強制只融合具有相同類別的觀察結果。
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

Objects Confidence Score

We consider three thresholds for the difference between the number ofnlier detections and outlier detections of an object: one for reliable objects, one for unreliable objects that might become reliable in the future, and one for unreliable objects that must be deleted from the object map.

對於系統處理的每個圖像,地圖對象落在相機視場內
測量。在這些地圖對象中,CNN檢測到了那些被視爲inliers,其餘被視爲outliers。
跟蹤一個目標是陽性檢測(inlier count)和失敗檢測(outlier ount)的時間,生成一個度量地圖對象的置信度。三個閾值來區分對象的內部檢測和異常檢測的數量:一個用於可靠對象,一個用於將來可能變得可靠的不可靠對象,另一個用於必須從對象映射中刪除的不可靠對象。

實驗概覽

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

引用:
https://blog.csdn.net/ainitutu/article/details/105576314

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章