深度學習|實例分割：3D-BoNet

點擊上方“3D視覺工坊”，選擇“星標”

乾貨第一時間送達

一、摘要

本文提出了一個簡單高效的新型3D點雲實例分割框架3D-BoNet，核心思想是逐點多層感知（MLP）。該框架直接預測3D邊框，同時預測邊框內各個點的二分標誌，即判斷它是屬於物體還是屬於背景。對應這兩個功能，它有兩個組成部分，一是3D邊框預測網絡，二是框內點分類網絡。3D-BoNet不僅是單階段、無錨點、端到端的系統，而且相比於傳統思路效率大幅度提高，因爲它不需要非極大值抑制（NMS）、特徵採樣、聚類、投票等後處理操作。在數據集ScanNet 和 S3DIS上的結果顯示，本文提出的方法可以有十倍的速度提升。

二、主要算法

1、主要思路

本文主要是針對傳統方法的缺點，提出了一種全新的架構，因此要理解本文的思路，就需要先對傳統方法做一些分析。

3D點雲實例分割在此之前主要有兩類，第一類是基於候選目標框的算法(Proposal-based methods)，這類方法通常先生成大量的候選框，然後依賴於兩階段的訓練和昂貴的非極大值抑制等操作來對密集的候選框進行選擇，缺點自然是運算量特別大。第二類是無候選目標框的算法(Proposal-free methods)，這類方法的核心思想是爲每個點學習一個分類，然後再通過聚類方法來將屬於同一個實例的點聚集到一起，缺點最終聚類到一起的實例目標性比較差，而且後處理步驟的時間成本也比較高。

明確了傳統方法的缺陷，以及造成缺陷的原因，那麼改進的思路就自然浮出來了，也就是本文的核心思路。首先不使用候選框，但爲了提高目標性，不能放棄邊界框，所以可以直接預測邊界框，這帶來一個問題，就是怎樣訓練，也就是怎樣把預測的邊界框和真值對比，作者爲了解決這個問題，就設計了一種邊界框關聯的方法，把預測和真值關聯在一起，完成關聯，後續的損失值設計等步驟就好做了。最後再對迴歸的邊界框內的點做一個二分類，把背景點去掉，就可以得到實例分割的結果了。

2、算法實現

按照上面的思路分析，我們把思路變成每一步具體的步驟就可以了。

首先看整體框架，如下圖所示。

從上圖可以看出，得到點雲之後，首先提取全局特徵，直接使用這個全局特徵來預測邊界框。與此同時，提取點的特徵，待邊界框迴歸結束以後，某些點就會落入對應的框中，這樣就可以進行二值分類，分割出實例目標。

爲了更詳細地瞭解框架內部工作流程，作者還提供了另外一張圖，如下圖所示。

從框架流程圖裏，我們可以明確地看到之前提到的邊界框的關聯，因爲這個關聯的需求是本文提出的框架所帶來的新問題，也是本文的核心內容，所以作者爲了解釋清楚，專門爲這個模塊繪製了一張圖。

從上圖就可以非常詳細地看到這個模塊的流程了，梳理一下，大致可以分爲以下幾步：

1）分配預測框給最近的真值框

2）計算頂點之間的歐式距離、交併比、交叉熵

3）計算損失函數

4）反向估計

完成了邊界框的迴歸，剩下的最後一步就是背景點的剔除了，具體流程圖下圖所示。即根據點特徵和邊界框的得分，對框內的點進行二分類。

三、實驗

作者首先展示了實例分割效果，如下圖所示。

從分割效果上可以看出，本文的方法分割更精細。爲了定量對比，作者在數據集ScanNet 和 S3DIS上和其他方法的精度統計結果做了分析，結果如下表所示。

從表中可以看出，該方法只在部分指標上取得了最優結果，但由於它的效率遠遠大於其他方法，所以整體上會更有優勢。

四、結論

作者提出了一種簡單高效的3D點雲實例分割方法，克服了傳統基於候選框和不使用候選框兩類方法的缺點，同時爲了解決新方法帶來的數據關聯問題，使用了最優分配的思路實現了損失函數計算。經過候選框預測和背景點剔除兩步之後，能夠很好地完成實例分割，並且在效率上是傳統方法的十倍，整體上取得了巨大優勢。

推薦閱讀：
專輯|相機標定
專輯|3D點雲
專輯|SLAM
專輯|深度學習與自動駕駛
專輯|結構光
專輯|事件相機
專輯|OpenCV學習
專輯|學習資源彙總
專輯|招聘與項目對接
專輯|讀書筆記

重磅！3DCVer-學術論文寫作投稿交流羣已成立
掃碼添加小助手微信，可申請加入3D視覺工坊-學術論文寫作與投稿微信交流羣，旨在交流頂會、頂刊、SCI、EI等寫作與投稿事宜。
同時也可申請加入我們的細分方向交流羣，目前主要有3D視覺、CV&深度學習、SLAM、三維重建、點雲後處理、自動駕駛、CV入門、三維測量、VR/AR、3D人臉識別、醫療影像、缺陷檢測、行人重識別、目標跟蹤、視覺產品落地、視覺競賽、車牌識別、硬件選型、學術交流、求職交流等微信羣，請掃描下面微信號加羣，備註：”研究方向+學校/公司+暱稱“，例如：”3D視覺 + 上海交大 + 靜靜“。請按照格式備註，否則不予通過。添加成功後會根據研究方向邀請進去相關微信羣。原創投稿也請聯繫。
▲長按加微信羣或投稿
▲長按關注公衆號

3D視覺從入門到精通知識星球：針對3D視覺領域的知識點彙總、入門進階學習路線、最新paper分享、疑問解答四個方面進行深耕，更有各類大廠的算法工程人員進行技術指導。與此同時，星球將聯合知名企業發佈3D視覺相關算法開發崗位以及項目對接信息，打造成集技術與就業爲一體的鐵桿粉絲聚集區，近1000+星球成員爲創造更好的AI世界共同進步，知識星球入口：

學習3D視覺核心技術，掃描查看介紹，3天內無條件退款
圈裏有高質量教程資料、可答疑解惑、助你高效解決問題

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

深度學習|實例分割：3D-BoNet

二、主要算法

1、主要思路

2、算法實現

三、實驗

四、結論

推薦閱讀：
專輯|相機標定
專輯|3D點雲
專輯|SLAM
專輯|深度學習與自動駕駛
專輯|結構光
專輯|事件相機
專輯|OpenCV學習
專輯|學習資源彙總
專輯|招聘與項目對接
專輯|讀書筆記

學習3D視覺核心技術，掃描查看介紹，3天內無條件退款
圈裏有高質量教程資料、可答疑解惑、助你高效解決問題

實錄｜三大AI開發神器亮相！李彥宏：人人都是開發者

文心大模型ERNIE-Tiny：輕量化技術的全面解讀

實操|基於OceanBase打造更穩定的Zabbix監控系統

Milvus 老友匯｜RAG 場景、電商平臺、AI 平臺……如何用向量數據庫構建業務方案？

提高 RAG 應用準確度，時下流行的 Reranker 瞭解一下？

學術期刊因投稿者並非雙一流高校作者而拒稿引熱議！這算學歷歧視嗎？

人臉識別技術如何應用到遊戲和美顏領域？

月薪25-80K丨一汽（南京）招聘雷達感知開發工程師、主管、主任、高級主任

投稿數翻倍，接收率不到三成！史上最難的ECCV你中了嗎？

研究SLAM，對編程的要求有多高？

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

深度學習|實例分割：3D-BoNet

二、主要算法

1、主要思路

2、算法實現

三、實驗

四、結論

推薦閱讀：專輯|相機標定專輯|3D點雲專輯|SLAM專輯|深度學習與自動駕駛專輯|結構光專輯|事件相機專輯|OpenCV學習專輯|學習資源彙總專輯|招聘與項目對接專輯|讀書筆記

學習3D視覺核心技術，掃描查看介紹，3天內無條件退款 圈裏有高質量教程資料、可答疑解惑、助你高效解決問題

推薦閱讀：
專輯|相機標定
專輯|3D點雲
專輯|SLAM
專輯|深度學習與自動駕駛
專輯|結構光
專輯|事件相機
專輯|OpenCV學習
專輯|學習資源彙總
專輯|招聘與項目對接
專輯|讀書筆記

學習3D視覺核心技術，掃描查看介紹，3天內無條件退款
圈裏有高質量教程資料、可答疑解惑、助你高效解決問題