用於從RGB-D數據進行3D物體檢測的Frustum PointNets

摘要：

在這項工作中，我們研究了室內和室外場景中RGB-D數據的三維物體檢測。雖然以前的方法專注於圖像或3D體素，通常模糊自然3D圖案和3D數據的不變性，但我們通過彈出RGB-D掃描直接對原始點雲進行操作。然而，這種方法的一個關鍵挑戰是如何在大規模場景的點雲中有效地定位對象（區域提議）。我們的方法不僅僅依靠3D建議，而是利用成熟的2D物體探測器和先進的3D深度學習來實現物體定位，實現效率以及即使是小物體的高召回率。受益於直接在原始點雲中學習，我們的方法也能夠精確估計3D邊界框，即使在強遮擋或非常稀疏的點下也是如此。在KITTI和SUN RGB-D 3D檢測基準測試中，我們的方法在具有實時功能的同時，以驚人的利潤優於最先進的技術。

1. 介紹

最近，在2D圖像理解任務方面取得了很大進展，例如物體檢測[10]和實例分割[11]。然而，除了獲得2D邊界框或像素掩模之外，在諸如自動駕駛和增強現實（AR）的許多應用中迫切需要3D理解。隨着部署在移動設備和自動駕駛車輛上的3D傳感器的普及，越來越多的3D數據被捕獲和處理。在這項工作中，我們研究了最重要的三維感知任務之一 - 三維物體檢測，它對物體類別進行分類，並從三維傳感器數據中估算物理對象的三維邊界框。

雖然3D傳感器數據通常採用點雲的形式，但如何表示點雲以及用於3D對象檢測的深層網絡架構仍然是一個懸而未決的問題。大多數現有作品通過投影[30,21]將3D點雲轉換爲圖像，或通過量化[33,18,21]將體積網格轉換爲體積網格，然後應用卷積網絡。然而，該數據表示變換可能模糊自然3D圖案和數據的不變性。最近，許多論文提出直接處理點雲而不將它們轉換成其他格式。例如，[20,22]提出了新類型的深網絡體系結構，稱爲PointNets，它在幾個3D理解任務中表現出卓越的性能和效率，如對象分類和語義分割。

雖然PointNets能夠對點雲進行分類或預測點雲中每個點的語義類，但尚不清楚該架構如何用於實例級3D對象檢測。爲實現這一目標，我們必須解決一個關鍵挑戰：如何在3D空間中有效地提出3D對象的可能位置。模仿圖像檢測中的實踐，通過滑動窗口[7]或通過3D區域提議網絡（如[27]）枚舉候選3D框是直截了當的。然而，3D搜索的計算複雜度通常在分辨率方面立方體地增長，並且對於大型場景或諸如自動駕駛的實時應用而言變得太昂貴。

相反，在這項工作中，我們按照降維原理縮小搜索空間：我們利用成熟的2D物體探測器（圖1）。首先，我們通過從圖像檢測器中擠出2D邊界框來提取對象的3D邊界平截頭體。然後，在由每個3D平截頭體修剪的3D空間內，我們使用PointNet的兩個變體連續地執行3D對象實例分割和非模態 1918 3D邊界框迴歸。分割網絡預測感興趣對象的3D掩模（即實例分割）;並且迴歸網絡估計了非模態的3D邊界框（覆蓋整個對象，即使只有部分可見）。

與之前將RGB-D數據視爲CNN的2D地圖的工作相比，我們的方法更加以3D爲中心，因爲我們將深度圖提升爲3D點雲並使用3D工具處理它們。這種以3D爲中心的視圖實現了以更有效的方式探索3D數據的新功能。首先，在我們的管道中，在3D座標上連續應用了一些變換，這些變換將點雲對齊成一系列更受約束和規範的幀。這些對齊分解出數據中的姿勢變化，從而使3D幾何圖案更加明顯，從而使3D學習者的工作更容易。其次，在三維空間中學習可以更好地利用三維空間的幾何和拓撲結構。原則上，所有物體都存在於3D空間中;因此，我們相信許多幾何結構，例如重複，平面性和對稱性，更自然地被直接在3D空間中操作的學習者參數化和捕獲。最近的實驗證據支持這種以3D爲中心的網絡設計理念的有用性。

我們的方法在KITTI 3D物體檢測[1]和鳥瞰圖檢測[2]基準測試中取得了領先地位。與以前的技術水平相比[5]，我們的方法在3D汽車AP上效率高達8.04％，效率高（以5 fps運行）。我們的方法也非常適合室內RGBD數據，我們在SUN-RGBD上比[13]和[24]實現了8.9％和6.4％更好的3D mAP，同時運行速度提高了一到三個數量級。

我們工作的主要貢獻如下：

• 我們提出了一種基於RGB-D數據的3D對象檢測的新框架，稱爲Frustum PointNets。

• 我們展示瞭如何在我們的框架下訓練3D物體探測器，並在標準3D物體探測基準上實現最先進的性能。

• 我們提供廣泛的定量評估，以驗證我們的設計選擇以及豐富的定性結果，以瞭解我們的方法的優勢和侷限性。

2. 相關工作

RGB-D數據的3D物體檢測 研究人員通過各種方式表示RGB-D數據，從而解決了3D檢測問題。

基於前視圖圖像的方法：[3,19,34]採用單眼RGB圖像和形狀先驗或遮擋模式來推斷3D邊界框。 [15,6]將深度數據表示爲2D地圖並應用CNN來定位2D圖像中的對象。相比之下，我們將深度表示爲點雲，並使用可以更有效地利用3D幾何的高級3D深度網絡（PointNets）。

基於鳥瞰圖的方法：MV3D [5]將LiDAR點雲投射到鳥瞰圖並訓練區域建議網絡（RPN [23]）用於3D邊界框提議。然而，該方法在檢測諸如行人和騎車者的小物體方面滯後，並且不能容易地適應具有垂直方向上的多個物體的場景。

基於3D的方法：[31,28]通過SVM在由點雲提取的手工設計的幾何特徵上訓練3D對象分類器，然後使用滑動窗口搜索來定位對象。 [7]通過在體素化3D網格上用3D CNN替換SVM來擴展[31]。 [24]設計了點雲中三維物體檢測的新幾何特徵。 [29,14]將整個場景的點雲轉換爲體積網格，並使用3D體積CNN進行對象建議和分類。由於3D卷積和大型3D搜索空間的昂貴成本，這些方法的計算成本通常很高。最近，[13]提出了一種2D驅動3D物體檢測方法，它與我們的精神相似。然而，他們使用手工製作的功能（基於點座標的直方圖）和簡單的完全連接的網絡來回歸3D盒子位置和姿勢，這在速度和性能方面都是次優的。相比之下，我們提出了一種更靈活，更有效的深度3D特徵學習解決方案（PointNets）。

點雲深度學習 大多數現有作品在特徵學習之前將點雲轉換爲圖像或體積形式。 [33,18,21]將點雲體素化爲體積網格，並將圖像CNN概括爲3D CNN。 [16,25,32,7]設計更有效的3D CNN或神經網絡架構，利用點雲中的稀疏性。然而，這些基於CNN的方法仍然需要具有特定體素分辨率的點雲的量化。最近，一些作品[20,22]提出了一種新型網絡架構（PointNets），它直接消耗原始點雲而不將它們轉換爲其他格式。雖然PointNets已應用於單個對象分類和語義分割，但我們的工作探索瞭如何擴展體系結構以實現3D對象檢測。

3. 問題定義

給定RGB-D數據作爲輸入，我們的目標是在3D空間中對對象進行分類和本地化。從LiDAR或室內深度傳感器獲得的深度數據表示爲RGB相機座標中的點雲。投影矩陣也是已知的，以便我們可以從2D圖像區域獲得3D平截頭體。每個對象由一個類（k個預定義類中的一個）和一個amodal 3D邊界框表示。即使對象的一部分被遮擋或截斷，amodal框也會綁定整個對象。 3D框通過其尺寸h，w，l，中心，，和相對於每個類別的預定規範姿勢的方向θ，φ，ψ來參數化。在我們的實現中，我們僅考慮圍繞上軸的方向角θ以進行定向。

4. 3D 檢測使用Frustum PointNets

圖2.用於3D對象檢測的Frustum PointNets。我們首先利用2D CNN物體探測器來提出2D區域並對其內容進行分類。然後將2D區域提升到3D，從而成爲截頭的提議。給定平截頭體中的點雲（n×c，具有n個點和x個通道的XYZ，每個點的強度等），通過每個點的二元分類來對對象實例進行分段。基於分割的對象點雲（m×c），輕量級迴歸PointNet（T-Net）嘗試通過平移對齊點，使得它們的質心接近於amodal box center。最後，盒估計網估計對象的amodal 3D邊界框。有關座標系和網絡輸入，輸出的更多說明見圖4和圖5。

如圖2所示，我們的三維物體檢測系統由三個模塊組成：平截頭體提議，三維實例分割和三維模塊邊界框估計。我們將在以下小節中介紹每個模塊。我們將重點關注每個模塊的管道和功能，並將讀者引用到所涉及的深度網絡的特定體系結構的補充。

4.1 Frustum 提案

大多數3D傳感器（尤其是實時深度傳感器）產生的數據分辨率仍低於商用相機的RGB圖像。因此，我們利用成熟的2D物體探測器來提出RGB圖像中的2D對象區域以及對對象進行分類。

利用已知的相機投影矩陣，可以將2D邊界框提升到平截頭體（具有由深度傳感器範圍指定的近和遠平面），其定義對象的3D搜索空間。然後我們收集平截頭體內的所有點以形成平截頭體點雲。如圖4（a）所示，平截頭體可以朝向許多不同的方向，這導致點雲的放置的大的變化。因此，我們通過將平截頭體朝向中心視圖旋轉來使截頭錐體歸一化，使得平截頭體的中心軸線與圖像平面正交。此歸一化有助於改善算法的旋轉不變性。我們將這整個過程稱爲從RGB-D數據平截頭提議生成中提取平截頭體點雲。

雖然我們的3D檢測框架與2D區域提議的確切方法無關，但我們採用基於FPN [17]的模型。我們在ImageNet分類和COCO對象檢測數據集上預先訓練模型權重，並在KITTI 2D對象檢測數據集上進一步微調它以對amodal 2D框進行分類和預測。補充中提供了2D探測器訓練的更多細節。

4.2 3D實例分割

給定2D圖像區域（及其對應的3D平截頭體），可以使用幾種方法來獲得對象的3D位置：一種直接的解決方案是使用2D從深度圖直接回歸3D對象位置（例如，通過3D邊界框）。然而，這個問題並不容易，因爲遮擋物體和背景雜亂在自然場景中很常見（如圖3所示），這可能會嚴重分散3D定位任務的注意力。因爲物體在物理空間中是自然分離的，所以3D點雲中的分割比來自遠處物體的像素彼此接近的圖像中的分割更加自然和容易。觀察到這一事實後，我們建議在3D點雲中而不是在2D圖像或深度圖中分割實例。與Mask-RCNN [11]類似，它通過圖像區域中像素的二進制分類實現實例分割，我們使用基於PointNet的網絡在截頭錐體上的點雲實現3D實例分割.

圖3.截錐點雲中3D檢測的挑戰。左圖：帶有圖像區域建議的RGB圖像。右圖：從2D框中擠出平截頭體中的LiDAR點的鳥瞰圖，在那裏我們看到了前景遮擋（自行車）和背景雜亂（建築物）的廣泛點。

基於3D實例分割，我們能夠實現基於殘差的3D定位。也就是說，不是迴歸物體的絕對3D位置，其偏離傳感器的偏差可能在很大的範圍內變化（例如在KITTI數據中從5米到超過50米），我們預測局部座標系中的3D邊界框中心 - 3D蒙版座標如圖4（c）所示。

3D實例分割 PointNet。 網絡在平截頭體中採用點雲並且預測每個點的概率分數，其指示該點屬於感興趣對象的可能性。請注意，每個視錐體僅包含一個感興趣的對象。這些“其他”點可以是非相關區域（例如地面，植被）或其他遮擋或位於感興趣對象後面的點。類似於2D實例分割中的情況，取決於平截頭體的位置，一個平截頭體中的對象點可能變得雜亂或遮擋另一個平截頭體中的點。因此，我們的分割PointNet正在學習遮擋和雜亂模式以及識別某個類別的幾何對象。

在多類檢測案例中，我們還利用2D檢測器的語義來實現更好的實例分割。例如，如果我們知道感興趣的對象是行人，那麼分割網絡可以在找到看起來像人的幾何之前使用它。具體來說，在我們的體系結構中，我們將語義類別編碼爲單熱類向量（預定義k類的k維），並將單熱矢量連接到中間點雲特徵。補充說明了具體體系結構的更多細節。

在3D實例分割之後，提取被分類爲感興趣對象的點（圖2中的“掩蔽”）。隨後獲得這些分割的對象點，我們進一步標準化其座標以增強算法的平移不變性，遵循相同的在截頭提案步驟中的基本原理。在我們的實現中，我們通過按質心減去XYZ值，將點雲轉換爲局部座標。這在圖4（c）中示出。請注意，我們故意不縮放點雲，因爲部分點雲的邊界球大小可能會受到視點的極大影響，並且點雲的實際大小有助於估計框大小。

在我們的實驗中，我們發現座標變換（例如上面的一個和前一個平截頭體旋轉）對於3D檢測結果至關重要，如表8所示。

圖4.點雲的座標系。人工點（黑點）顯示爲（a）默認攝像機座標; （b）將截頭錐體旋轉到中心視圖後的平截頭座標（第4.1節）; （c）掩飾與原點處物點的質心的座標（第4.2節）; （d）由T-Net預測的物體座標（第4.3節）

圖5. PointNets的基本體系結構和IO。爲具有集合抽象層和特徵傳播層（用於分段）的PointNet ++ [22]（v2）模型說明了體系結構。所涉及的座標系在圖4中可視化。

4.3 非模態 3D Box估計

給定分割的對象點（在3D掩模座標中），該模塊通過使用框迴歸PointNet和預處理變換器網絡來估計對象的面向amodal的3D邊界框。

通過T-Net進行基於學習的3D對齊即使我們根據質心位置對齊了分割的對象點，我們發現掩模座標框架的原點（圖4（c））可能距離模塊框還很遠中央。因此，我們建議使用輕量級迴歸PointNet（T-Net）來估計整個物體的真實中心，然後變換座標，使預測的中心成爲原點（圖4（d））。

我們的T-Net的架構和訓練類似於[20]中的T-Net，它可以被認爲是一種特殊類型的空間變換器網絡（STN）[12]。然而，與原始STN不同，它沒有直接監督轉換，我們明確監督我們的變換網絡，以預測從掩模座標原點到實際對象中心的中心殘差。

Amodal 3D Box Estimation PointNet 對於給定3D對象座標中的對象點雲的對象，框估計網絡預測模式邊界框（對於整個對象，即使其中一部分是看不見的）（圖4（d））。網絡體系結構類似於對象分類[20,22]，但輸出不再是對象類分數，而是3D邊界框的參數。

如第三部分所述，我們通過其中心（），尺寸（h，w，l）和航向角θ（沿着上軸）來參數化3D邊界框。我們採用“殘差”方法進行盒子中心估計。由盒估計網絡預測的中心殘差與來自T-Net和掩蔽點的質心的先前中心殘差組合以恢復絕對中心（等式1）。對於盒子大小和航向角度，我們遵循以前的工作[23,19]並使用分類和迴歸公式的混合。具體來說，我們預先定義NS尺寸模板和NH等分割角度盒子。我們的模型將大小/航向（大小的NS分數，航向的NH分數）分類爲預定義的類別，並預測每個類別的殘差數量（高度，寬度，長度，NH殘餘角度的3×NS殘餘尺寸）用於標題）。最後，淨輸出總共爲3 + 4×NS + 2×NH數。

$C_{pred}=C_{mask}+\Delta C_{t-net}+\Delta C_{box-net}$ (1)

4.4 多任務損失的訓練

我們同時優化所涉及的三個網絡（3D實例分割PointNet，T-Net和amodal盒估計PointNet），具有多任務損失（如公式2所示）。 $L_{c1-reg}$ 用於T-Net， $L_{c2-reg}$ 用於箱估計網的中心迴歸。 $L_{h-cls}$ 和 $L_{h-reg}$ 是航向角預測的損失，而 $L_{s-cls}$ 和 $L_{s-reg}$ 是箱尺寸。 Softmax用於所有分類任務，smooth- $l_{1}$ （huber）損失用於所有迴歸情況。

$L_{multi-task}=L_{seg}+\lambda \left ( L_{c1-reg}+L_{c2-reg}+L_{h-cls}+L_{h-reg}+L_{s-cls}+\gamma L_{corner} \right )$ (2)

用於盒子參數聯合優化的拐角損失 雖然我們的3D邊界框參數化緊湊且完整，但學習並未針對最終3D盒子精度進行優化 - 中心，大小和標題具有單獨的損耗項。想象一下中心和大小被準確預測但是航向角度偏離的情況 - 具有地面實況框的3D IoU將由角度誤差支配。理想情況下，所有三個術語（中心，大小，標題）應聯合優化，以實現最佳3D盒估計（在IoU度量下）。爲了解決這個問題，我們提出了一種新的正則化損失，即角落丟失：

$L_{corner}=\sum_{i=1}^{NS}\sum_{j=1}^{NH}\delta _{ij}min\left \{ \sum_{k=1}^{8}\left \| P_{k}^{ij} -P_{k}^{*}\right \|,\sum_{i=1}^{8}\left \| P_{k}^{ij} -P_{k}^{**} \right \| \right \}$ (3)

爲了計算角落損失，我們首先從所有尺寸模板和航向角度箱構造NS×NH“錨”框。然後將錨箱轉換到估計的箱子中心。我們將錨框角指示爲 $P_{k}^{ij}$ ，其中i，j，k分別是尺寸類，標題類和（預定義）角點順序的索引。爲了避免翻轉航向估計造成大的損失，我們進一步計算從翻轉的地面實況框到角落的距離（ $P_{k}^{**}$ ），並使用原始和翻轉情況的最小值。 $\delta _{ij}$ ，一個用於地面實況大小/標題類，其他爲零，是用於選擇我們關心的距離項的二維掩模。

5. 實驗

實驗分爲三個部分1。首先，我們在KITTI [8]和SUN-RGBD [27]（第5.1節）上與最先進的3D物體檢測方法進行比較。其次，我們提供深入分析以驗證我們的設計選擇（第5.2節）。最後，我們展示定性結果，並討論我們的方法的優勢和侷限性（第5.3節）。

5.1 與最先進的方法相比

我們在KITTI [9]和SUN-RGBD [27]三維物體檢測基準上評估我們的3D物體探測器。在這兩項任務中，與最先進的方法相比，我們取得了明顯更好的結果。

KITTI 表1顯示了我們的3D探測器在KITTI測試裝置上的性能。我們大大優於以前的theart-ofart方法。雖然MV3D [5]使用多視圖特徵聚合和複雜的多傳感器融合策略，但我們基於PointNet [20]（v1）和PointNet ++ [22]（v2）骨幹的方法在設計上更加清晰。雖然超出了這項工作的範圍，但我們希望傳感器融合（特別是用於3D檢測的圖像特徵聚合）可以進一步改善我們的結果。

我們還在Tab中顯示了我們方法在3D對象定位（鳥瞰圖）上的表現。 2.在3D定位任務中，邊界框被投影到鳥瞰視圖平面，IoU在定向2D框上進行評估。同樣，我們的方法明顯優於以前的工作，包括在投影的LiDAR圖像上使用CNN的DoBEM [35]和MV3D [5]，以及在體素化點雲上使用3D CNN的3D FCN [14]。

我們的網絡輸出在圖6中可視化，即使在非常具有挑戰性的情況下，我們也可以觀察到精確的3D實例分割和盒子預測。我們將關於成功和失敗案例模式的更多討論推遲到 Sec.5.3。我們還報告了表3和表4中的KITTI val集（與[5]中相同的分割）（用於汽車）以支持與更多已發表的作品進行比較的表現，以及表5（對於行人和騎自行車者）的參考。

SUN-RGBD 以前的大多數3D探測工作都專注於室外LiDAR掃描，其中物體在空間中很好地分離，點雲是稀疏的（這使得它可以用於鳥瞰投影），或者是室內深度圖，它是具有密集像素的常規圖像這樣的值可以容易地應用圖像CNN。然而，設計用於鳥瞰的方法可能對於在垂直空間中通常一起存在多個物體的室內房間而言是不可能的。另一方面，室內聚焦方法可能難以應用於LiDAR掃描的稀疏和大規模點雲。

相比之下，我們基於平截頭體的PointNet是戶外和室內3D物體檢測的通用框架。通過應用我們用於KITTI數據集的相同管道，我們在SUNR GBD基準測試（表6）上實現了最先進的性能，具有顯着更高的mAP以及更快（10x-1000x）的推理速度。

表1. KITTI測試集上的3D對象檢測3D AP。 DoBEM [35]和MV3D [5]（先前的技術水平）基於具有鳥瞰LiDAR圖像的2D CNN。我們的方法，沒有傳感器融合或多視圖聚合，在所有類別和數據子集上以大邊距優於那些方法。 3D邊界框IoU閾值對於汽車爲70％，對於行人和騎自行車者爲50％。

表2. KITTI測試集上的3D對象定位AP（鳥瞰圖）。 3D FCN [14]在體素化點雲上使用3D CNN，遠非實時。 MV3D [5]是先前的技術水平。我們的方法在所有類別和數據子集上都明顯優於那些方法。鳥瞰圖2D邊界框IoU閾值對於汽車爲70％，對於行人和騎自行車者爲50％。

表5.爲行人和騎自行車者設置的KITTI val表現。評估的模型是我們的（v2）。

圖6.在KITTI val集上的Frustum PointNet結果的可視化（最好以放大的顏色查看）。這些結果基於PointNet ++模型[22]，以5 fps運行，並分別爲汽車，行人和騎車人實現70.39,44.89和56.77的測試集3D AP。點雲上的3D實例掩碼以彩色顯示。真正的正檢測框爲綠色，而假陽性框爲紅色，藍色的groundtruth框顯示爲假陽性和假陰性的情況。每個方框旁邊的數字和字母表示實例ID和語義類，汽車爲“v”，行人爲“p”，騎車人爲“c”。見第二節。 5.3有關結果的更多討論。

5.2 結構設計分析

在本節中，我們提供分析和消融實驗來驗證我們的設計選擇。

實驗設置。除非另有說明，否則本節中的所有實驗均基於我們在KITTI數據上的v1模型，使用[5]中的train / val split。爲了分解2D探測器的影響，我們使用地面真實2D框用於區域提議，並使用3D框估計精度（IoU閾值0.7）作爲評估指標。我們只關注具有最多培訓示例的汽車類別。

表6. SUN-RGBD val集上的3D對象檢測AP。評估指標是[27]提出的3D IoU閾值0.25的平均精度。請注意，COG [24]和2D驅動[13]都使用房間佈局上下文來提升性能，而我們和DSS [29]則沒有。與以前的技術水平相比，我們的方法在mAP方面優於6.4％至11.9％，並且速度提高了一到三個數量級。

與三維檢測的替代方法相比。 在這一部分中，我們使用2D掩模評估了一些基於CNN的基線方法以及我們管道的消融版本和變體。在表7的第一行，我們顯示來自兩個基於CNN的網絡的3D盒估計結果。基線方法在RGB-D圖像的地面實況框上訓練VGG [26]模型，並採用相同的框參數和損失函數作爲我們的主要方法。雖然第一行中的模型直接估計來自vanilla RGB-D圖像塊的盒位置和參數，但另一個（第二行）使用從COCO數據集訓練的FCN進行2D掩模估計（如MaskRCNN [11]中所示）和僅使用蒙版區域中的要素進行預測。還通過減去2D掩模內的中值深度來轉換深度值。然而，與我們的主要方法相比，兩個CNN基線都得到了更糟糕的結果。

爲了理解CNN基線表現不佳的原因，我們在圖7中可視化典型的2D掩模預測。雖然估計的2D掩模在RGB圖像上以高質量出現，但2D掩模中仍然存在大量雜波和前景點。相比之下，我們的3D實例分割得到了更加清晰的結果，這大大簡化了下一個模塊的精細定位和邊界框迴歸。

在表7的第三行，我們嘗試了一個沒有3D實例分割模塊的截錐版PointNet的消融版本。毫不奇怪，該模型比我們的主要方法得到更糟糕的結果，這表明我們的3D實例分割模塊的關鍵效果。在第四行中，我們使用來自2D掩模深度圖（圖7）的點雲來代替3D分割，用於3D盒估計。但是，由於2D蒙版無法乾淨地分割3D對象，因此性能比3D分割（第五行中的主要方法）差12％以上。另一方面，2D和3D蒙版的組合使用 - 從2D蒙版深度圖在點雲上應用3D分割 - 也顯示比我們的主要方法稍差的結果可能是由於來自不準確的2D蒙版預測的累積誤差。

點雲歸一化的影響。如圖4所示，我們的視錐體PointNet採用一些關鍵的座標轉換來規範化點雲，以便更有效地學習。標籤。圖8示出了每個歸一化步驟如何幫助3D檢測。我們看到平截頭體旋轉（使得平截頭體點具有更相似的XYZ分佈）和掩模質心減法（使得對象點具有更小且更規範的XYZ）是關鍵的。此外，T-Net對象點雲與對象中心的額外對齊也極大地提高了性能。

迴歸損失公式和角落損失的影響。在表7中。我們比較了不同的損失選項，並表明“cls-reg”損失（航向和尺寸迴歸的分類和殘差迴歸方法）和正規角落損失的組合可以獲得最佳結果。

僅使用迴歸損失（第一行）的幼稚基線實現了不令人滿意的結果，因爲迴歸目標的範圍很大（物體尺寸從0.2m到5m）。相比之下，cls-reg損失和標準化版本（由標題箱尺寸或模板形狀尺寸標準化的殘差）實現了更好的性能。在最後一行，我們表明正常的角落損失進一步有助於優化。

圖7. 2D和3D masks之間的比較。我們展示了來自KITTI val集的典型2D區域提議，其中包括2D（在RGB圖像上）和3D（在平截頭體點雲上）實例分割結果。紅色數字表示點的深度範圍。

5.3 定性結果和討論

在圖6中，我們可視化我們的視錐體PointNet模型的代表性輸出。我們看到，對於合理距離的非遮擋物體的簡單情況（因此我們得到足夠數量的點），我們的模型輸出非常精確的3D實例分割掩模和3D邊界框。其次，我們驚訝地發現我們的模型甚至可以從具有少量點的部分數據（例如平行停放的汽車）中正確地預測出來的amodal 3D框。甚至人類也發現僅使用點雲數據來註釋這樣的結果非常困難。第三，在某些情況下，在具有大量附近或甚至重疊的2D框的圖像中看起來非常具有挑戰性，當轉換爲3D空間時，定位變得更容易（例如，第二行第三列中的P11）。

另一方面，我們確實觀察到幾種失效模式，這些模式表明了未來努力的可能方向。第一個常見錯誤是由於稀疏點雲中的姿勢和大小估計不準確（有時小於5個點）。我們認爲圖像功能可以極大地幫助esp。因爲我們甚至可以訪問遠距離物體的高分辨率圖像補丁。第二種類型的挑戰是在平截頭體中存在來自同一類別的多個實例（例如兩個人待命）。由於我們當前的管道在每個平截頭體中假定一個感興趣的對象，因此當出現多個實例時可能會混淆，從而輸出混合的分割結果。如果我們能夠在每個平截頭體內提出多個3D邊界框，則可以減輕這個問題。第三，有時我們的2D探測器由於暗光或強遮擋而錯過物體。由於我們的平截頭體提議基於區域提議，因此在沒有2D檢測的情況下不會檢測到3D對象。但是，我們的3D實例分割和amodal 3D盒估計PointNets不限於RGB視圖提議。如補充說明所示，相同的框架也可以擴展到鳥瞰圖中提出的3D區域。

Acknowledgement：

作者希望感謝Nuro Inc.的支持，ONR MURI授權N00014-13-1-0341，NSF授予DMS-1546206和IIS-1528025，三星GRO獎，以及來自Adobe，亞馬遜和Apple的禮物。

References

[1] Kitti 3d object detection benchmark leader board. http://www.cvlibs.net/datasets/kitti/ eval_object.php?obj_benchmark=3d. Accessed: 2017-11-14 12PM. 2

[2] Kitti bird’s eye view object detection benchmark leader board. http://www.cvlibs.net/datasets/ kitti/eval_object.php?obj_benchmark=bev. Accessed: 2017-11-14 12PM. 2

[3] X. Chen, K. Kundu, Z. Zhang, H. Ma, S. Fidler, and R. Urtasun. Monocular 3d object detection for autonomous driving. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2147–2156, 2016. 2, 6

[4] X. Chen, K. Kundu, Y. Zhu, A. G. Berneshawi, H. Ma, S. Fidler, and R. Urtasun. 3d object proposals for accurate object class detection. In Advances in Neural Information Processing Systems, pages 424–432, 2015. 6

[5] X. Chen, H. Ma, J. Wan, B. Li, and T. Xia. Multi-view 3d object detection network for autonomous driving. In IEEE CVPR, 2017. 2, 5, 6

[6] Z. Deng and L. J. Latecki. Amodal detection of 3d objects: Inferring 3d bounding boxes from 2d ones in rgb-depth images. In Conference on Computer Vision and Pattern Recognition (CVPR), volume 2, 2017. 2

[7] M. Engelcke, D. Rao, D. Z. Wang, C. H. Tong, and I. Posner. Vote3deep: Fast object detection in 3d point clouds using efficient convolutional neural networks. In Robotics and Automation (ICRA), 2017 IEEE International Conference on, pages 1355–1361. IEEE, 2017. 1, 2

[8] A. Geiger, P. Lenz, C. Stiller, and R. Urtasun. Vision meets robotics: The kitti dataset. The International Journal of Robotics Research, 32(11):1231–1237, 2013. 5

[9] A. Geiger, P. Lenz, and R. Urtasun. Are we ready for autonomous driving? the kitti vision benchmark suite. In Conference on Computer Vision and Pattern Recognition (CVPR), 2012. 5

[10] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on, pages 580–587. IEEE, 2014. 1

[11] K. He, G. Gkioxari, P. Dollar, and R. Girshick. Mask r-cnn. ´ arXiv preprint arXiv:1703.06870, 2017. 1, 4, 7

[12] M. Jaderberg, K. Simonyan, A. Zisserman, et al. Spatial transformer networks. In NIPS 2015. 4

[13] J. Lahoud and B. Ghanem. 2d-driven 3d object detection in rgb-d images. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 4622– 4630, 2017. 2, 7

[14] B. Li. 3d fully convolutional network for vehicle detection in point cloud. arXiv preprint arXiv:1611.08069, 2016. 2, 5, 6

[15] B. Li, T. Zhang, and T. Xia. Vehicle detection from 3d lidar using fully convolutional network. arXiv preprint arXiv:1608.07916, 2016. 2

[16] Y. Li, S. Pirk, H. Su, C. R. Qi, and L. J. Guibas. Fpnn: Field probing neural networks for 3d data. arXiv preprint arXiv:1605.06240, 2016. 2

[17] T.-Y. Lin, P. Dollar, R. Girshick, K. He, B. Hariharan, and ´ S. Belongie. Feature pyramid networks for object detection. arXiv preprint arXiv:1612.03144, 2016. 3

[18] D. Maturana and S. Scherer. Voxnet: A 3d convolutional neural network for real-time object recognition. In IEEE/RSJ International Conference on Intelligent Robots and Systems, September 2015. 1, 2

[19] A. Mousavian, D. Anguelov, J. Flynn, and J. Kosecka. 3d bounding box estimation using deep learning and geometry. arXiv preprint arXiv:1612.00496, 2016. 2, 5

[20] C. R. Qi, H. Su, K. Mo, and L. J. Guibas. Pointnet: Deep learning on point sets for 3d classification and segmentation. Proc. Computer Vision and Pattern Recognition (CVPR), IEEE, 2017. 1, 2, 4, 5

[21] C. R. Qi, H. Su, M. Nießner, A. Dai, M. Yan, and L. Guibas. Volumetric and multi-view cnns for object classification on 3d data. In Proc. Computer Vision and Pattern Recognition (CVPR), IEEE, 2016. 1, 2

[22] C. R. Qi, L. Yi, H. Su, and L. J. Guibas. Pointnet++: Deep hierarchical feature learning on point sets in a metric space. arXiv preprint arXiv:1706.02413, 2017. 1, 2, 4, 5, 7

[23] S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. In Advances in neural information processing systems, pages 91–99, 2015. 2, 5

[24] Z. Ren and E. B. Sudderth. Three-dimensional object detection and layout prediction using clouds of oriented gradients. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1525–1533, 2016. 2, 7

[25] G. Riegler, A. O. Ulusoys, and A. Geiger. Octnet: Learning deep 3d representations at high resolutions. arXiv preprint arXiv:1611.05009, 2016. 2

[26] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014. 7

[27] S. Song, S. P. Lichtenberg, and J. Xiao. Sun rgb-d: A rgb-d scene understanding benchmark suite. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 567–576, 2015. 1, 5, 7

[28] S. Song and J. Xiao. Sliding shapes for 3d object detection in depth images. In Computer Vision–ECCV 2014, pages 634–651. Springer, 2014. 2

[29] S. Song and J. Xiao. Deep sliding shapes for amodal 3d object detection in rgb-d images. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 808–816, 2016. 2, 7

[30] H. Su, S. Maji, E. Kalogerakis, and E. G. Learned-Miller. Multi-view convolutional neural networks for 3d shape recognition. In Proc. ICCV, 2015. 1

[31] D. Z. Wang and I. Posner. Voting for voting in online point cloud object detection. Proceedings of the Robotics: Science and Systems, Rome, Italy, 1317, 2015. 2

[32] P.-S. Wang, Y. Liu, Y.-X. Guo, C.-Y. Sun, and X. Tong. O-cnn: Octree-based convolutional neural networks for 3dshape analysis. ACM Transactions on Graphics (TOG), 36(4):72, 2017. 2

[33] Z. Wu, S. Song, A. Khosla, F. Yu, L. Zhang, X. Tang, and J. Xiao. 3d shapenets: A deep representation for volumetric shapes. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1912–1920, 2015. 1, 2

[34] Y. Xiang, W. Choi, Y. Lin, and S. Savarese. Data-driven 3d voxel patterns for object category recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1903–1911, 2015. 2

[35] S.-L. Yu, T. Westfechtel, R. Hamada, K. Ohno, and S. Tadokoro. Vehicle detection and localization on birds eye view elevation images using convolutional neural network. 2017 IEEE International Symposium on Safety, Security and Rescue Robotics (SSRR), 2017. 5, 6

《Frustum PointNets for 3D Object Detection from RGB-D Data》中文翻譯

用於從RGB-D數據進行3D物體檢測的Frustum PointNets

摘要：

1. 介紹

2. 相關工作

3. 問題定義

4. 3D 檢測使用Frustum PointNets

4.1 Frustum 提案

4.2 3D實例分割

4.3 非模態 3D Box估計

4.4 多任務損失的訓練

5. 實驗

5.1 與最先進的方法相比

5.2 結構設計分析

5.3 定性結果和討論

Acknowledgement：

References

Android啓動過程-萬字長文(Android14)

【SQL進階】CASE語句的使用

optional install error: Error: Unsupported URL Type: npm:vue-loader@^16.1.0

這種嵌套字典類型的數據，我想把它讀取到df裏，如何操作？

微調真的能讓LLM學到新東西嗎:引入新知識可能讓模型產生更多的幻覺

iNeuOS工業互聯網操作系統，增加電力IEC104協議

微服務實踐k8s&dapr開發部署實驗（3）訂閱發佈

chromedriver版本

kbgressdb之數據結構V0.2

《PointNet：Deep Learning on Point Sets for 3D Classification and Segmentation》中文翻譯

/Linux/Ubuntu下解壓命令

LaTex的表格、圖片、參考文獻的基本操作

搭建自己的物體檢測模型系列（1）環境的搭建和測試

搭建自己的物體檢測模型系列（2）使用自己的數據集來訓練模型

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結