NeurIPS2019：3D點雲實例分割的新框架3D-BoNet

導讀

機器能夠理解3D場景是自動駕駛，增強現實和機器人技術的基本必要條件。3D幾何數據（例如點雲）的核心問題包括語義分割，對象檢測和實例分割。在這些問題中，實例分割僅在文獻中才開始解決。主要的障礙是點雲本質上是無序的，無結構的和不均勻的。廣泛使用的卷積神經網絡要求對3D點雲進行體素化，從而導致高昂的計算和存儲成本。第一個直接解決3D實例分割的神經算法是SGPN，該算法通過相似矩陣學習對每點特徵進行分組。同樣，ASIS，JSIS3D，MASC，3D-BEVIS的每點特徵分組管道應用於分割3D實例。在PartNet 中將實例分割表述爲每點特徵分類問題。但是，這些無提議方法的學習到的部分沒有很高的客觀性，因爲它們沒有明確地檢測到對象邊界。另外，他們不可避免地需要後處理步驟，例如均值漂移聚類，以獲得最終實例標籤，這在計算上很繁瑣。另一個是基於提議的3D-SIS和GSPN ，它們通常依賴於兩階段訓練和昂貴的非最大抑制來修剪密集對象提議。

在本文中，我們爲3D實例分割提供了一種簡單，高效且新穎的框架，其中使用高效的MLP通過單向階段對對象進行鬆散但唯一的檢測，然後通過簡單的點級二進制分類器精確地對每個實例進行分割。爲此，我們引入了新的邊界框預測模塊以及一系列精心設計的損失函數，以直接學習物體邊界。我們的框架與現有的基於提案和無提案的方法有很大不同，因爲我們能夠高效地分割所有具有高對象性的實例，而無需依賴昂貴且密集的對象提案。

團隊介紹

第一作者楊波是牛津大學博士生。

該團隊提出的方法稱爲3D BoNet，遵循每點多層感知器（MLP）的簡單設計原理。該框架爲點雲中的所有實例直接回歸3D邊界框，同時爲每個實例預測點級蒙版。它由一個骨幹網和兩個並行的網絡分支組成，用於邊界框迴歸和點掩碼預測。

3D-BoNet是單階段，免錨且可端到端訓練的。此外，由於與現有方法不同，它不需要任何後處理步驟（例如非最大抑制，特徵採樣，聚類或投票），因此計算效率非常高。大量的實驗表明，我們的方法超越了ScanNet和S3DIS數據集上的現有工作，同時其計算效率提高了約10倍。全面的消融研究證明了我們設計的有效性。

上面的動態圖是三維場景理解(3D scene understanding)。

3D-BoNet算法優勢：

3D-BoNet能明確地預測目標的邊界框，因此最終學習的實例具有更好的客觀性。
3D-BoNet不需要區域提議網絡、roalign等複雜、耗時的操作，因此不需要NMS等後期處理步驟。
3D-BoNet由非常有效的共享MLP組成，不需要後處理步驟，例如非最大抑制、特徵採樣、聚類或投票，因此它非常有效。

預覽

3D BoNet的整體框架如下圖所示。它主要由

1）實例級邊界框預測；

2）點水平掩模預測；

由兩個分支組成。

顧名思義，邊界框預測分支用於預測點雲中每個實例的邊界框，掩碼預測分支用於預測邊界框中的點的掩碼，以進一步區分邊界框中的點屬於實例還是背景。

圖1：用於在3D點雲上進行實例細分的3D-BoNet框架。

首先，我們可以回顧一下proposal-based的方法如何生成邊界框？沒錯，根據錨，區域建議網絡（RPN）被用來生成大量密集的邊界框，然後進一步細化，但這顯然不夠有效，是否真的有必要生成這麼多密集的邊界框？針對這個問題，我們可以做一個大膽的假設：否則，讓每個實例迴歸一個唯一的、但可能不那麼精確的邊界框，而不是RPN。

圖2：粗糙實例框。

考慮到三維點雲本身明確地包含了每個目標的幾何信息，我們認爲這個目標是可行的。然後再大膽一點，或者嘗試用全局特性直接回歸每個實例的邊界框？如果能做到這一點，這個問題就不能一分爲二地解決嗎？

但新問題又來了。

首先，每個3D場景中包含的實例數量不同（網絡如何自適應地輸出不同數量的邊界框？），並且每個點雲中的實例仍處於無序狀態。這意味着，即使我們將一系列的邊界盒與網絡進行迴歸，也很難將這些邊界盒與地面真理的邊界盒一一關聯起來。進一步的問題是我們無法實現有監督的網絡訓練和優化。

在這一點上，核心問題變成：我們應該如何訓練這個網絡？

針對這一問題，我們提出了一個邊界框關聯層和多準則損失函數來實現網絡訓練。也就是說，我們必須將預測的邊界框和地面真值邊界框之間的關聯（配對）問題建模爲一個最優分配問題。

圖3：3D-BoNet框架的一般工作流程。

如何關聯？

爲了使網絡預測的每個邊界框與ground truth 的邊界框唯一關聯，我們將其建模爲一個最優分配問題。假定A 是一個二值(binary)關聯索引矩陣，當且僅當第個預測的邊界框分配給ground truth的邊界框時。C 是關聯代價矩陣，代表將第個預測的邊界框分配給ground truth的邊界框的關聯代價。一般來說，代表兩個邊界框的匹配程度，兩個邊界框越匹配也即代價越小。因此，邊界框的最優關聯問題也就轉變成爲尋找總代價最小的最優分配索引矩陣 A 的問題，用公式表示如下:

如何計算關聯代價矩陣C

爲了測量兩個三維邊界框之間的匹配程度，最簡單和直觀的評價指標是比較兩個邊界框的最小頂點和最大頂點之間的歐幾里德距離。然而，考慮到點雲通常在三維空間中非常稀疏且分佈不均勻，如圖4所示，儘管候選框2（紅色）和候選框1（黑色）以及地面真值邊界框0（藍色）都具有相同的歐氏距離，但框2顯然具有更多的有效點（重疊更多）。因此，在計算成本矩陣時，還應考慮有效點的覆蓋。

圖4：稀疏的輸入點雲。

爲此，我們考慮以下三個指標：

（1）頂點之間的歐幾里德距離：第個預測的邊界框分配給ground truth的邊界框的代價爲:

（2） Soft IoU：給定輸入點雲P和ground truth 真相實例邊界框我們可以直接得到一個硬二元向量描述每個點是否在邊界框內。但是，對於相同的輸入點雲P的第預測框,直接獲得相似的硬二元向量將導致不可微(non-differentiable)。

因此，我們引入一個可微但簡單的算法來獲得一個相似但軟的二元向量，稱爲pred-box概率中的點。所有值都在範圍內(0,1)。值越高，點在框中的可能性就越大。值越小，對應的點可能離框越遠。因此，我們定義第一預測的邊界框和地面真值的邊界框的sIoU如下：

公式中和代表和的第值

（3）交叉熵。此外，我們還考慮了和之間的交叉熵。交叉熵傾向於獲得具有更高覆蓋率的更大邊界框：

綜上所述，指標（1）使學習到的盒子儘可能與地面真值的邊界框重合，指標（2）（3）用於覆蓋儘可能多的點，克服不均勻性。第一預測的邊界框和ground truth的邊界框的最終相關代價爲：

損失函數是如何定義的？

通過邊界框關聯各層後，利用相關指數矩陣A將預測的邊界框B及其對應的得分與ground truth進行匹配，使靠前的T的邊界框（ground truth邊界框總數）和邊界框與ground truth真值匹配。

對於邊界框得分預測，我們使用另一個損失函數。

預測盒得分旨在表徵相應預測盒的有效性。

通過關聯的索引矩陣A重新排序後，我們將前T個真實邊界框對應的分數設置爲1，將其餘H-T無效邊界框對應的分數設置爲0。

我們將交叉熵損失用於此二元分類任務：

作爲另一個並行分支，我們的方法可以使用任何現有的點雲語義分割算法（如Sparseconv、++等）作爲相應的語義分割模塊。整個網絡的最終損失函數定義爲:

表示語義分段分支的丟失。這裏我們使用標準交叉熵。網絡的具體優化求解過程採用Hungarian算法。

如何預測實例掩碼？

與邊界框預測分支相比，這個分支相對簡單，因爲只要邊界框預測足夠好，這個分支就相當於做了一個二值分類問題，即使你盲目猜測，它也可以有50%的準確率。在這一分支中，我們將特徵點與每個邊界框和分數進行融合，然後爲每個實例預測一個點級二值掩碼。考慮到背景點和實例點之間的不平衡，我們使用焦點損失來優化該分支。

圖6：點掩碼預測分支的體系結構。將點要素與每個邊界框和分數融合，然後爲每個實例預測一個點級二進制掩碼。

實驗

在ScanNet（v2）基準上，我們的方法達到了最新的效果。與3D-SIS相比，MASC等方法有了明顯的改進。

表1：ScanNet（v2）基準測試（隱藏測試集）上的實例分割結果。度量標準是IoU閾值爲0.5的AP（％）

在消融研究中，我們進一步確定了各分支的作用和各評價指標的損失函數：

表2：所有實例的分割結果S3DIS 5區的燒蝕實驗。

就計算效率而言，3D-BoNet是目前最快的方法。與SGPN、ASIS、3D-SIS等方法相比，3D-BoNet的速度快了10倍以上。

圖7：不同方法處理ScanNet validation set所需要的時間消耗。

此外，我們在圖8中進一步顯示了在S3DIS數據集（區域1、2、3、4、6和區域5測試）上進行訓練時，我們提出的損失函數的變化曲線。從圖中可以看出，我們提出的損失函數能夠實現相對一致的收斂，從而實現了語義分割分支、邊界框預測分支、點掩碼預測分支的端到端方法的優化。

圖8：我們的方法在S3DIS數據集上的training loss

在圖9中，我們展示了預測邊界框和邊界框分數的可視化。可以看出，用我們的方法預測的邊界並不一定非常精確和緊湊。相反，它們是相對包容的，具有相對較高的客觀性。這也與我希望在本文開始時獲得的粗糙邊界框的目標一致。

圖9。在S3DIS數據集區域2上，對我們的方法的預測邊界框和分數進行可視化。紅色框表示預測的邊界框，藍色邊界框表示地面真相。

預測邊界框後，預測每個框內的點遮罩要容易得多。最後，我們將預測的實例掩碼可視化，其中黑點表示屬於此實例的概率接近0，而彩色點表示屬於此實例的概率接近1，顏色越深，概率越大。

圖10。預測實例掩碼的可視化。輸入點雲總共包含四個實例，即兩張椅子、一張桌子和地面。從左到右是椅子1、椅子2、桌子1和地面2的點式面罩。

總結

論文地址或源碼下載地址：關注“圖像算法”微信公衆號回覆"3D-BoNet",作者提出了一種基於邊界框迴歸的點雲實例分割算法。通過最小化匹配代價函數來實現近似邊界框迴歸，最後通過點掩碼預測實現最終分割。我們提出的3D-BoNet不僅對ScanNet和S3DIS數據集達到了最新的效果，而且比其他現有算法更有效。

NeurIPS2019：3D點雲實例分割的新框架3D-BoNet

MySQL 核心模塊揭祕 | 18 期 | 鎖在內存里長什麼樣*

使用perf工具生成火焰圖

HttpSecurity 是如何組裝過濾器鏈的

數說海南——近6年海南各市縣人口簡單看

長序列中Transformers的高級注意力機制總結

WebStorm 創建 Vue 項目

大齡程序員思考

響應式界面控件DevExtreme * 更強的數據分析和可視化功能

谷歌開源：使用MediaPipe在移動設備上進行實時3D對象檢測

南洋理工大學最新發布開源圖神經網絡基準

Github熱門源碼：藉助TensorFlow.js讓你在視頻中瞬間消失

Python機器學習：數據科學，機器學習和人工智能的主要發展技術趨勢概述

CVPR2020:上交大讓合成圖像更真實，提出了通過域驗證進行深度圖像協調(開源)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結