3D點雲綜述

轉載：http://blog.csdn.net/john_bh/

論文鏈接:Deep Learning for 3D Point Clouds: A Survey
作者及團隊：國防科大 & 中山大學 & 牛津大學
會議及時間： Arxiv 2019
code:https://github.com/QingyongHu/SoTA-Point-Cloud

Abstract

由於點雲學習在計算機視覺，自動駕駛和機器人等許多領域的廣泛應用，近來引起了越來越多的關注。深度學習作爲AI中的主要技術，已成功用於解決各種2D視覺問題。但是，由於使用深度神經網絡處理點雲所面臨的獨特挑戰，因此點雲上的深度學習仍處於起步階段。近年來，在點雲上的深度學習甚至變得蓬勃發展，提出了許多方法來解決該領域的不同問題。爲了激發未來的研究，本文對點雲深度學習方法的最新進展進行了全面回顧。它涵蓋了三個主要任務，包括3D形狀分類，3D對象檢測和跟蹤以及3D點雲分割。它還提供了一些可公開獲得的數據集的比較結果，以及有見地的觀察結果和對未來研究方向的啓發.

索引詞-深度學習，點雲，3D數據，形狀分類，對象檢測，對象跟蹤，場景流，實例分割，語義分割，場景理解。

1.Introduction

隨着3D採集技術的飛速發展，3D傳感器變得越來越可用和負擔得起，包括各種類型的3D掃描儀，LiDAR和RGB-D相機（例如Kinect，RealSense和Apple深度相機）[1]。這些傳感器獲取的3D數據可以提供豐富的幾何，形狀和比例信息[2]，[3]。與2D圖像互補，3D數據爲更好地瞭解機器周圍環境提供了機會。 3D數據在不同領域具有衆多應用，包括自動駕駛，機器人技術，遙感，醫學治療和設計行業[4]。

3D數據通常可以用不同的格式表示，包括深度圖像，點雲，網格和體積網格。作爲一種常用格式，點雲表示將原始幾何信息保留在3D空間中，而不會進行任何離散化。因此，它是諸如自動駕駛和機器人技術之類的許多場景理解相關應用程序的首選表示法。最近，深度學習技術已經佔據了許多研究領域，例如計算機視覺，語音識別，自然語言處理（NLP）和生物信息學。因此，在3D點雲上進行深度學習仍然面臨數個重大挑戰[5]，例如數據集規模小，維數高和3D點雲的非結構化性質。在此基礎上，本文着重分析用於處理3D點雲的深度學習方法。

點雲上的深度學習一直吸引着越來越多的關注，尤其是在過去的五年中。還發布了一些公開可用的數據集，例如ModelNet [6]，ShapeNet [7]，ScanNet [8]，Semantic3D [9]和KITTI Vision Benchmark Suite [10]。這些數據集進一步推動了對3D點雲的深度學習的研究，提出了越來越多的方法來解決與點雲處理相關的各種問題，包括3D形狀分類，3D對象檢測和跟蹤以及3D點雲分割。也很少有關於3D數據的深度學習調查，例如[11]，[12]，[13]，[14]。但是，我們的論文是第一個專門針對點雲的深度學習方法的論文。此外，本文全面涵蓋了分類，檢測，跟蹤和分段等不同應用。圖1顯示了3D點雲的現有深度學習方法的分類。
有文獻相比，這項工作的主要貢獻可以歸納如下：
1）據我們所知，這是第一份全面涵蓋針對幾個重要點雲相關任務的深度學習方法的調查論文，包括3D形狀分類，3D對象檢測和跟蹤以及3D點雲分割。
2）與現有評論[11]，[12]相反，我們特別關注於針對3D點雲的深度學習方法，而不是針對所有類型的3D數據。
3）本文涵蓋了點雲上深度學習的最新和最先進的進展。因此，它爲讀者提供了最新的方法。
4）提供了一些公開可用數據集上現有方法的全面比較（例如，表1、2、3、4），並給出了簡短的摘要和有見地的討論。

本文的結構如下。第2節回顧了3D形狀分類的方法。第3節概述了3D對象檢測和跟蹤的現有方法。第4節概述了點雲分割方法，包括語義分割，實例分割和零件分割。最後，第5節總結了論文。我們還在以下位置提供了定期更新的項目頁面：https://github.com/QingyongHu/SoTA-Point-Cloud.

2.3D形狀分類

這些方法通常首先學習每個點的嵌入，然後使用聚合方法從整個點雲中提取全局形狀嵌入。最後通過幾個完全連接的層實現分類。基於對每個點進行特徵學習的方式，現有的3D形狀分類方法可以分爲基於投影的網絡和基於點的網絡。圖2說明了幾種里程碑方法。

基於投影的方法首先將非結構化的點雲投影到中間的正則表示中，然後利用成熟的2D或3D卷積實現形狀分類。相反，基於點的方法可直接在原始點雲上運行，而無需任何體素化或投影。基於點的方法不會造成明顯的信息丟失，並且越來越受歡迎。在本文中，我們主要關注基於點的網絡，但爲了完整起見，也很少包含基於投影的網絡。

2.1 基於投影的網絡

這些方法將3D點雲投影到不同的表示形式（例如多視圖，體積表示）中，用於特徵學習和形狀分類。

2.1.1多視圖表示

這些方法首先將3D對象投影到多個視圖中，並提取相應的按視圖方向的特徵，然後融合這些特徵以進行準確的對象識別。如何將多個基於視圖的功能聚合到一個可區分的全局表示中是一個關鍵挑戰。 MVCNN [15]是一項開創性的工作，它只是將多視圖特徵最大池化爲一個全局描述符。但是，最大池化只能保留特定視圖中的最大元素，從而導致信息丟失。 MHBN [16]通過協調雙線性池整合了局部卷積特徵，以生成緊湊的全局描述符。楊等。 [17]首先利用關係網絡來利用一組視圖之間的相互關係（例如，區域-區域關係和視圖-視圖關係），然後將這些視圖進行聚合以獲得具有區別性的3D對象表示。另外，還提出了其他幾種方法[18]，[19]，[20]，[21]，以提高識別精度。

2.1.2體積表示

早期方法通常在3D點雲的體積表示基礎上應用3D卷積神經網絡（CNN）。 Daniel等文獻[22]介紹了一種稱爲VoxNet的體積佔用網絡，以實現可靠的3D對象識別。 Wu等 [6]提出了一種基於卷積深度信念的3D ShapeNet，以學習各種3D形狀中點的分佈。 3D形狀通常由體素網格上二進制變量的概率分佈表示。儘管已經實現了令人鼓舞的性能，但是這些方法無法很好地縮放到密集的3D數據，因爲計算和內存佔用量隨分辨率呈三次方增長。爲此，引入了層次結構和緊湊的圖結構（例如八叉樹）以減少這些方法的計算和存儲成本。 OctNet [23]首先使用混合網格-八叉樹結構對點雲進行分層劃分，該結構表示沿着規則網格具有多個淺八叉樹的場景。八叉樹的結構使用位字符串表示進行有效編碼，並且每個特徵向量體素通過簡單的算術索引。 Wang等 [24]提出了一種基於Octree的CNN用於3D形狀分類。在最細的葉子八分位數中採樣的3D模型的平均法線向量被饋送到網絡中，並將3D-CNN應用於3D形狀表面所佔據的八分位數。與基於密集輸入網格的基準網絡相比，OctNet對於高分辨率點雲所需的內存和運行時間要少得多。 Le等[25]提出了一種稱爲PointGrid的混合網絡，該網絡集成了點和網格表示，以進行有效的點雲處理。在每個嵌入的體積網格單元中採樣恆定數量的點，這使網絡可以使用3D卷積提取幾何細節。

2.2 基於點的網絡

根據用於每個點的特徵學習的網絡體系結構，該類別中的方法可分爲點式MLP，基於卷積，基於圖，基於數據索引的網絡和其他典型網絡。

2.2.1點對點MLP網絡

這些方法使用幾個多層感知器（MLP）獨立地對每個點建模，然後使用對稱函數聚合全局特徵，如圖3所示。這些網絡可以實現無序3D點雲的置換不變性。但是，沒有完全考慮3D點之間的幾何關係。

作爲一項開創性的工作，PointNet [5]通過幾個MLP層學習逐點特徵，並通過最大池化層提取全局形狀特徵。使用幾個MLP層獲得分類分數。 Zaheer等。 [26]還從理論上證明了實現置換不變性的關鍵是對所有表示求和並應用非線性變換。他們還爲包括形狀分類在內的各種應用設計了一種基本架構DeepSets [26]。

由於對於PointNet [5]中的每個點都是獨立學習特徵的，因此無法捕獲點之間的局部結構信息。因此，齊等。 [27]提出了一個層次網絡PointNet ++來捕獲每個點附近的精細幾何結構。作爲PointNet ++層次結構的核心，其集合抽象級別由三層組成：採樣層，分組層和PointNet層。通過堆疊幾個設置的抽象級別，PointNet ++可以從局部幾何結構中學習特徵，並逐層抽象局部特徵。

由於其簡單性和強大的表示能力，已經基於PointNet [5]開發了許多網絡。 Achlioptas等[28]介紹了一種深度自動編碼器網絡來學習點雲表示。它的編碼器遵循PointNet的設計，並使用五個1-D卷積層，ReLU非線性激活，批歸一化和最大池化操作獨立學習點特徵。在點注意變壓器（PAT）[29]中，每個點都由其自身的絕對位置和相對於其鄰居的相對位置表示。然後，使用組隨機注意力（GSA）來捕獲點之間的關係，並開發了排列不變，可區分且可訓練的端到端Gumbel子集採樣（GSS）層來學習分層特徵。 Mo-Net [30]的體系結構與PointNet [5]類似，但是它需要有限的時間作爲其網絡的輸入。PointWeb[31]也基於PointNet ++構建，並使用本地鄰域的上下文來改進點使用自適應功能調整（AFA）的功能。段等。 [32]提出了一種結構關係網絡（SRN）來學習使用MLP的不同局部結構之間的結構關係特徵。 Lin等[33]通過爲PointNet所學習的輸入和函數空間構造查找表來加速推理過程。在中等機器上，與PointNet相比，ModelNet和ShapeNet數據集上的推理時間縮短了1.5毫秒和32倍。 SRINet [34]首先投影一個點雲以獲得旋轉不變表示，然後利用基於PointNet的主幹來提取全局特徵，並利用基於圖的聚合來提取局部特徵。

2.2.2基於卷積的網絡

與在2D網格結構（例如圖像）上定義的內核相比，由於點雲的不規則性，難以爲3D點雲設計卷積內核。根據卷積核的類型，當前的3D卷積網絡可以分爲連續卷積網絡和離散卷積網絡，如圖4所示。

3D連續卷積網絡。這些方法在連續空間上定義卷積核，其中相鄰點的權重與相對於中心點的空間分佈有關。

3D卷積可以解釋爲給定子集的加權和。 MLP是學習權重的一種簡單方法。作爲RS-CNN的核心層[35]，RS-Conv將某個點周圍的局部點子集作爲輸入，然後通過學習映射使用MLP進行卷積。從低級關係（例如歐幾里得距離和相對位置）到局部子集中點之間的高級關係。在[36]中，內核元素是在單位球體內隨機選擇的。然後使用基於MLP的連續函數在內核元素的位置和點雲之間建立關係。在DensePoint [37]中，卷積定義爲帶有非線性激活器的單層感知器（SLP）。通過串聯所有先前層的特徵以充分利用上下文信息來學習特徵。

一些方法還使用現有算法來執行卷積。在PointConv [38]中，卷積定義爲相對於重要性採樣的連續3D卷積的蒙特卡洛估計。卷積核由權重函數（通過MLP層學習）和密度函數（通過核化密度估計和MLP層學習）組成。爲提高內存和計算效率，將3D卷積進一步減少爲兩個運算：矩陣乘法和2D卷積。使用相同的參數設置，其內存消耗可減少約64倍。在MCCNN [39]中，卷積被視爲依賴樣本密度函數（由MLP實現）的蒙特卡洛估計過程。然後使用Poisson磁盤採樣來構建點雲層次結構。該卷積運算符可用於在兩種或多種採樣方法之間執行卷積，並可以處理變化的採樣密度。在SpiderCNN [40]中，提出了SpiderConv來將卷積定義爲階躍函數與在k個最近鄰居上定義的泰勒展開式的乘積。階躍函數通過對局部測地距離進行編碼來捕獲粗略的幾何形狀，泰勒展開通過在立方體的頂點處插值任意值來捕獲固有的局部幾何形狀變化。此外，還基於徑向基函數爲3D點雲提出了卷積網絡PCNN [41]。托馬斯等。 [42]使用一組可學習的核點爲3D點雲提出了剛性和可變形核點卷積（KPConv）運算符。
已經提出了幾種方法來解決3D卷積網絡面臨的旋轉等變問題。 [43]提出了3D球面卷積神經網絡（Spherical CNN）來學習3D形狀的旋轉等變表示，它以多值球面函數爲輸入。通過在球形諧波域中用錨點對頻譜進行參數化來獲得局部卷積濾波器。提出了張量場網絡[44]，將點卷積運算定義爲可學習的徑向函數和球諧函數的乘積，它們局部等價於點的3D旋轉，平移和置換。[45]中的卷積定義爲在球形互相關上使用通用快速傅里葉變換（FFT）算法實現。基於PCNN，SPHNet [46]通過在體積函數的卷積過程中合併球形諧波核來實現旋轉不變性。 ConvPoint [47]將卷積核分爲空間和特徵部分。從單位球體中隨機選擇空間部分的位置，並通過簡單的MLP學習加權函數。

爲了加快計算速度，Flex-Convolution [48]將卷積核的權重定義爲k個最近鄰居上的標準標量積，可以使用CUDA對其進行加速。實驗結果證明了它在具有較少參數和較低內存消耗的小型數據集上的競爭性能。

3D離散卷積網絡。這些方法在常規網格上定義卷積核，其中相鄰點的權重與相對於中心點的偏移量有關。

華等 [49]將非均勻的3D點雲轉換爲均勻的網格，並在每個網格上定義了卷積核。與2D卷積（爲每個像素分配權重）不同，建議的3D內核爲落入同一網格的所有點分配相同的權重。對於給定的點，從上一層計算位於同一網格上的所有相鄰點的平均特徵。然後，對所有網格的平均特徵進行加權和求和以產生當前層的輸出。 [50]通過將3D球形鄰近區域劃分爲多個體積倉並將每個倉與可學習的加權矩陣相關聯，定義了球形卷積核。一個點的球形卷積核的輸出由其相鄰點的加權激活值平均值的非線性激活確定。在GeoConv [51]中，一個點及其相鄰點之間的幾何關係是基於六個基礎顯式建模的。沿基礎每個方向的邊緣特徵根據相鄰點的基礎由可學習的矩陣獨立加權。然後根據給定點及其相鄰點形成的角度聚合這些與方向相關的特徵。對於給定點，其當前層的特徵定義爲給定點的特徵與其在上一層的相鄰邊緣特徵的總和。 PointCNN [52]通過X-conv轉換（通過MLP實現）實現了置換不變性。通過將點特徵插值到相鄰的離散卷積核量座標，毛等人[53]提出了一個插值卷積算子InterpConv來測量輸入點雲和核重量座標之間的幾何關係。張等[54]提出了一個RIConv算子來實現旋轉不變性，它以低層旋轉不變幾何特徵作爲輸入，然後通過一種簡單的裝箱方法將卷積變成一維。

A-CNN [55]通過圍繞查詢點每個環上的核大小圍繞鄰居數組循環定義環形卷積。A-CNN學習局部子集中的相鄰點之間的關係。爲了減少3D CNN的計算和存儲成本，Kumawat等人（美國） [56]提出了一種基於3D短期傅立葉變換（STFT）的3D局部鄰域中的相位提取整流局部相位體積（ReLPV）塊，該參數可顯着減少參數數量。在SFCNN [57]中，將點雲投影到具有對齊球座標的規則二十面體網格上。然後，通過卷積最大池-卷積結構，對從球形晶格的頂點及其相鄰像素連接的特徵進行卷積。 SFCNN抵抗旋轉和擾動。

2.2.3基於圖的網絡

基於圖的網絡將點雲中的每個點視爲圖的頂點，並基於每個點的鄰居爲圖生成有向邊。然後在空間或頻譜域中進行特徵學習[58]。一個典型的基於圖的網絡如圖5所示。

空間域中基於圖的方法。這些方法在空間域中定義操作（例如，卷積和池化）。具體來說，卷積通常是通過對空間鄰居的MLP來實現的，通過彙總來自每個點的鄰居的信息，合併會生成新的粗化圖。通常爲每個頂點的特徵分配座標，激光強度或顏色，而通常爲每個邊緣的特徵分配兩個連接點之間的幾何屬性。

作爲開拓性的工作，Simonovsky等人 [58]將每個點視爲圖的頂點，並通過有向邊將每個頂點連接到其所有鄰居。然後，使用濾波器生成網絡（例如，MLP）提出了邊緣條件卷積（ECC）。採用最大池來聚集鄰域信息，並基於VoxelGrid [59]算法實現圖粗化。對於形狀分類，首先對卷積和池進行交織。然後，遵循全局平均池和完全連接的層以產生分類分數。在DGCNN [60]中，在特徵空間中構建圖，並在網絡的每一層之後進行動態更新。作爲EdgeConv的核心層，MLP用作每個邊緣的特徵學習功能，通道方式的對稱聚合也應用於與每個點的鄰居相關聯的邊緣特徵。此外，LDGCNN [61]刪除了轉換網絡，並將DGCNN [60]中不同層的層次結構鏈接在一起，以改善其性能並減小模式大小。還提出了一種端到端無監督的深層自動編碼器網絡（即FoldingNet [62]），以使用向量化局部協方差矩陣和點座標的級聯作爲其輸入。

Hassani等人受Inception [63]和DGCNN [60]的啓發。 [64]提出了一種無監督的多任務自動編碼器來學習點和形狀特徵。編碼器是基於多尺度圖構造的。解碼器是使用三個無監督任務構造的，包括聚類，自監督分類和重構，這些任務與多任務損失一起訓練。劉等。 [65]建議
一個基於圖卷積的動態點集聚模塊（DPAM），將點集聚（採樣，分組和合並）的過程簡化爲一個簡單的步驟，該過程通過將集聚矩陣與點特徵矩陣相乘來實現。與PointNet ++的分層策略相比，DPAM在語義空間中動態地利用了點之間的關係並聚集了點。

爲了利用局部幾何結構，提出了KCNet [66]來學習基於核相關性的特徵。具體來說，一組表徵局部結構的幾何類型的可學習點被定義爲核。然後，計算核與給定點鄰域之間的親和力。在G3D [67]中，卷積定義爲鄰接矩陣多項式的變體，池化定義爲將Laplacian矩陣和頂點矩陣乘以一個粗化矩陣。 ClusterNet [68]利用嚴格旋轉不變（RRI）模塊提取每個點的旋轉不變特徵，並基於具有監督鏈接標準的無監督聚集層次聚類方法構造點雲的層次結構[69]。首先通過EdgeConv塊學習每個子集羣中的功能，然後通過最大池聚合。

頻譜域中基於圖的方法。這些方法將卷積定義爲頻譜濾波，這是通過將圖上的信號與圖拉普拉斯矩陣的特徵向量相乘來實現的[70]。

爲了應對高計算量和非本地化的挑戰，Defferrard等人 [71]提出了一個截斷的切比雪夫多項式來近似頻譜過濾。他們學習的特徵圖位於每個點的Khops鄰居內。注意，特徵向量是根據[70] [71]中的固定圖拉普拉斯矩陣計算的。相反，RGCNN [72]通過將每個點與點雲中的所有其他點連接來構造圖，並更新每一層中的圖拉普拉斯矩陣。爲了使相鄰頂點的特徵更相似，在損失函數中添加了先驗圖信號平滑度。爲了解決由數據的多種圖形拓撲引起的挑戰，AGCN [73]中的SGC-LL層利用可學習的距離度量來參數化圖形上兩個頂點之間的相似度。從圖獲得的鄰接矩陣使用高斯核和學習距離進行歸一化。 [74]提出了一個超圖神經網絡（HGNN），並通過在超圖上應用譜卷積來建立一個超邊緣卷積層。

前述方法在全圖上運行。爲了利用當地的結構信息，王等。 [75]提出了一個端到端的頻譜卷積網絡LocalSpecGCN來處理一個本地圖（它是由k個最近的鄰居構造而成的）。此方法不需要對圖拉普拉斯矩陣和圖粗化層次進行任何離線計算。在PointGCN [76]中，基於來自點雲的k個最近鄰居構建圖，並使用高斯覈對每個邊進行加權。卷積濾波器在圖譜域中定義爲Chebyshev多項式。全局池和多分辨率池用於捕獲點雲的全局和局部特徵。 Pan等。 [77]提出了3DTI-Net，方法是在頻譜域中對第k個最近的相鄰圖進行卷積。通過從相對的歐幾里得距離和方向距離中學習，可以實現幾何變換的不變性.

2.2.4基於數據索引的網絡

這些網絡是根據不同的數據索引結構（例如octree和kd-tree）構建的。在這些方法中，點特徵是從葉節點到樹的根節點進行分層學習的。 Lei等[50]提出了一種使用球面卷積核的八叉樹引導的CNN（如2.2.2節所述）。網絡的每一層都與八叉樹的一層相對應，並且球形卷積核應用於每一層。當前層中神經元的值被確定爲上一層中所有相關子節點的平均值。與OctNet [23]（基於octree）不同，Kd-Net [78]是使用多個Kd樹構建的，每次迭代時都有不同的分割方向。按照自下而上的方法，使用MLP根據非子節點的子代表示來計算它的子代。根節點的特徵（描述整個點雲）最終被饋送到完全連接的層以預測分類分數。請注意，Kd-Net根據節點的拆分類型在每個級別共享參數。 3DContextNet [79]使用標準的平衡K-d樹來實現特徵學習和聚合。在每個級別上，首先通過MLP根據局部提示（模擬本地區域中點之間的相互依賴性）和全局上下文提示（模擬一個位置相對於所有其他位置的關係）來學習點特徵。然後，使用MLP從非子節點的子節點計算其特徵，並通過最大池化對其進行聚合。爲了分類，重複以上過程直到獲得根節點。

SO-Net網絡的層次結構是通過執行點到節點k最近鄰居搜索來構建的[80]。具體而言，修改後的置換不變自組織圖（SOM）用於對點雲的空間分佈進行建模。通過一系列完全連接的層，從歸一化的點到節點座標中學習單個點特徵。 SOM中每個節點的特徵是使用通道方式最大池從與此節點關聯的點特徵中提取的。然後使用類似於PointNet [5]的方法從節點特徵中學習最終特徵。與PointNet ++ [27]相比，SOM的層次結構效率更高，並且可以充分利用點雲的空間分佈。

2.2.5其他網絡

除上述方法外，還提出了許多其他方案。在3DmFV [82]中，將點雲體素化爲統一的3D網格，並根據在這些網格上定義的一組高斯混合模型的似然性來提取費舍爾向量。由於費舍爾向量的分量在所有點上求和，因此所得表示形式不變於點雲的順序，結構和大小。 RBFNet [86]通過聚集稀疏分佈的徑向基函數（RBF）內核中的特徵來顯式地建模點的空間分佈。RBF特徵提取層計算所有內核對每個點的響應，然後對內核位置和內核大小進行優化以在訓練過程中捕獲點的空間分佈。與完全連接的層相比，RBF特徵提取層可產生更多區分性特徵，同時將參數數量減少幾個數量級。趙等。 [85]提出了一種無監督的自動編碼器3DPointCapsNet，用於3D點雲的通用表示學習。在編碼器階段，首先將逐點MLP應用於點雲以提取點無關特徵，將其進一步饋送到多個獨立的卷積層中，然後通過將多個最大池學習特徵圖進行級聯來提取全局潛在表示。基於無監督的動態路由，學習了強大的代表性潛伏膠囊。 Xie等人從形狀上下文描述符的構建中得到啓發[89]。鮑勃科夫等人[81]提出了一種新穎的ShapeContextNet體系結構，該方法通過將親和點選擇和緊湊的特徵聚合結合起來，並利用點積自關注實現了軟對齊操作[90]。 [91]將基於手工製作的點對函數的4D旋轉不變描述符輸入到4D卷積神經網絡中。 Prokudin等。 [92]首先從單位球中隨機採樣具有均勻分佈的基點集，然後將點雲編碼爲到基點集的最小距離，這將點雲轉換爲固定長度相對較小的向量。然後可以使用現有的機器學習方法來處理編碼的表示。 RCNet [88]利用標準的RNN和2D CNN來構建用於3D點雲處理的置換不變網絡。首先將點雲劃分爲平行波束，並沿特定維度分類，然後將每個波束饋入共享的RNN。所學習的特徵被進一步饋送到有效的2D CNN中以進行分層特徵聚合。爲了增強其描述能力，提出了RCNet-E沿不同分區和排序方向集成多個RCNet。 Point2Sequences [87]是另一個基於RNN的模型，可捕獲點雲局部區域中不同區域之間的相關性。它將從多個區域的局部區域中學習的特徵視爲序列，並將來自所有局部區域的這些序列饋送到基於RNN的編碼器-解碼器結構中，以聚合局部區域特徵。秦等。 [93]提出了一種基於端到端無監督域自適應的網絡PointDAN，用於3D點雲表示。爲了捕獲點雲的語義特性，提出了一種自我監督的方法來重構點雲，該點雲的各個部分已被隨機重排[94]。

還提出了幾種方法來從3D點雲和2D圖像中學習。在PVNet [83]中，從多視圖圖像中提取的高級全局特徵通過嵌入網絡投影到點雲的子空間中，並通過軟關注掩模與點雲特徵融合。最後，對融合特徵和多視圖特徵採用殘差連接以執行形狀識別。後來，進一步提出了PVRNet [84]，以利用3D點雲及其多個視圖之間的關係，這些關係是通過關係評分模塊學習的。基於關係得分，原始的2D全局視圖功能得到了增強，可用於點單視圖融合和點多視圖融合。

ModelNet10 / 40數據集是最常用的形狀分類數據集。表1顯示了通過不同的基於點的網絡獲得的結果。可以得出以下幾點結論：
1）逐點MLP網絡通常用作其他類型的網絡的基本構建塊，以學習逐點特徵。
2）作爲一種標準的深度學習架構，基於卷積的網絡可以在不規則的3D點雲上實現卓越的性能。對於不規則數據，應更加註意離散卷積網絡和連續卷積網絡。
3）由於其固有的強大能力來處理不規則數據，基於圖形的網絡近年來引起了越來越多的關注。然而，在頻譜域中將基於圖的網絡擴展到各種圖結構仍然是挑戰。
4）大多數網絡需要將點雲下采樣爲固定的小尺寸。此採樣過程將丟棄形狀的詳細信息。開發可以處理大規模點雲的網絡仍處於起步階段[95]。

3.3D對象檢測與跟蹤

在本節中，我們將回顧3D對象檢測，3D對象跟蹤和3D場景流估計的現有方法。

3.1 3D對象檢測

3D對象檢測的任務是在給定場景中準確定位所有感興趣的對象。類似於圖像中的對象檢測[96]，3D對象檢測方法可以分爲兩類：基於區域提議的方法和單次拍攝方法。圖6顯示了幾種里程碑方法。

3.1.1基於地區提案的方法

這些方法首先提議幾個包含對象的可能區域（也稱爲提議），然後提取區域特徵以確定每個提議的類別標籤。根據它們的對象建議生成方法，這些方法可以進一步分爲三類：基於多視圖，基於分段和基於視錐的方法。

多視圖方法。這些方法融合了來自不同視圖地圖的提議特徵（例如，LiDAR前視圖，鳥瞰圖（BEV）和圖像）以獲得3D旋轉框，如圖7（a）所示。這些方法的計算成本通常很高。 [4]從BEV地圖中生成了一組高度精確的3D候選框，並將其投影到多個視圖的特徵圖（例如LiDAR前視圖圖像，RGB圖像）。然後，他們將這些從不同視圖獲得的區域特徵進行組合，以預測定向的3D邊界框，如圖7（a）所示。儘管此方法僅在300個提議的情況下在0.25的工會交叉點（IoU）上實現了99.1％的召回率，但其速度對於實際應用而言仍然太慢。隨後，從兩個方面開發了幾種方法來改進多視圖3D對象檢測方法。

首先， 已經提出了幾種方法來有效地融合不同模態的信息。爲了生成對小物體具有較高召回率的3D建議，Ku等人[97]提出了一種基於多模式融合的區域提議網絡。他們首先使用裁剪和調整大小操作從BEV和圖像視圖中提取了大小相等的特徵，然後使用逐元素均值合併融合了這些特徵。梁等。 [98]利用連續卷積來實現圖像和3D LiDAR特徵圖在不同分辨率下的有效融合。具體而言，他們提取了BEV空間中每個點的最接近的對應圖像特徵，然後使用雙線性插值法將圖像特徵投影到BEV平面中以獲得密集的BEV特徵圖。實驗結果表明，密集的BEV特徵圖比離散圖像特徵圖和稀疏LiDAR特徵圖更適合3D對象檢測。梁等。 [99]提出了一種用於端到端訓練的多任務多傳感器3D對象檢測網絡。具體而言，利用多種任務（例如，2D對象檢測，地面估計和深度完成）來幫助網絡學習更好的特徵表示。進一步利用學習到的跨模態表示來產生高度準確的對象檢測結果。實驗結果表明，該方法在2D，3D和BEV檢測任務上取得了顯着改進，並且優於TOR4D基準[100]，[101]上的最新技術。

其次， 已經研究了不同的方法來提取輸入數據的魯棒表示。 Lu等。 [102]通過引入空間通道注意力（SCA）模塊探索了多尺度上下文信息，該模塊捕獲了場景的全局和多尺度上下文並突出了有用的功能。他們還提出了擴展空間非採樣（ESU）模塊，通過組合多尺度低層特徵來獲取具有豐富空間信息的高層特徵，從而生成可靠的3D對象建議。儘管可以實現更好的檢測性能，但是上述多視圖方法需要較長的運行時間，因爲它們爲每個建議執行功能池。隨後，曾eng等。 [103]使用預RoI池卷積來提高[4]的效率。具體來說，他們將大多數卷積運算移到了RoI池模塊的前面。因此，RoI卷積對於所有對象建議都執行一次。實驗結果表明，該方法可以11.1 fps的速度運行，是MV3D的5倍[4]。

基於細分的方法。這些方法首先利用現有的語義分割技術去除大多數背景點，然後在前景點上生成大量高質量的建議以節省計算量，如圖7（b）所示。與多視圖方法相比[4]， [97]，[103]，這些方法實現了更高的對象召回率，並且更適用於對象被高度遮擋和擁擠的複雜場景。

楊等[104]使用2D分割網絡來預測前景像素，並將其投影到點雲中以去除大多數背景點。然後，他們在預測的前景點上生成建議，並設計了一個名爲PointsIoU的新標準，以減少建議的冗餘性和歧義性。繼[104]之後，Shi等人[105]提出了PointRCNN框架。具體來說，他們直接分割3D點雲以獲得前景點，然後融合語義特徵和局部空間特徵以生成高質量3D框。繼[105]的RPN階段之後，耶穌等人 [106]提出了一項開拓性的工作，以利用圖卷積網絡（GCN）進行3D對象檢測。具體來說，引入了兩個模塊以使用圖卷積精煉對象建議。第一個模塊R-GCN利用提案中包含的所有點來實現按提案的特徵聚合。第二個模塊C-GCN將所有提案中的每幀信息融合在一起，以通過利用上下文來回歸準確的對象框。 Sourabh等[107]將點雲投影到基於圖像的分割網絡的輸出中，並將語義預測分數附加到這些點上。將繪製的點饋送到現有的檢測器[105]，[108]，[109]中，以實現顯着的性能改進。楊等。 [110]將每個點與球形錨點關聯。然後，將每個點的語義分數用於刪除多餘的錨點。因此，與先前的方法[104]，[105]相比，該方法以較低的計算成本實現了更高的召回率。此外，提出了一個PointsPool層來學習提案中內部點的緊湊特徵，並引入了一個並行的IoU分支以提高定位精度和檢測性能。在KITTI數據集[10]的硬集（汽車類別）上優於其他方法[99]，[105]，[111]，並且以12.5 fps的速度運行。

基於視錐的方法。這些方法首先利用現有的2D對象檢測器生成對象的2D候選區域，然後爲每個2D候選區域提取3D視錐提案，如圖7（c）所示。儘管這些方法可以有效地建議3D對象的可能位置，但分步流水線使其性能受到2D圖像檢測器的限制。

F-PointNets [112]是這個方向的開創性工作。它爲每個2D區域生成一個視錐提案，並應用PointNet [5]（或PointNet ++ [27]）來學習每個3D視錐的點雲特徵以進行模態3D框估計。在後續工作中，Zhao等人[113]提出了一個Point-SENet模塊來預測一組比例因子，這些比例因子還用於自適應地突出顯示有用的特徵並抑制信息量少的特徵。他們還將PointSIFT [114]模塊集成到網絡中以捕獲點雲的方向信息，從而獲得了強大的魯棒性以進行形狀縮放。與F-PointNets [112]相比，該方法在室內和室外數據集[10] [115]上均取得了顯着改善。

徐等[116]利用2D圖像區域及其對應的平截頭體點來精確地迴歸3D框。爲了融合點雲的圖像特徵和全局特徵，他們提出了用於框角位置直接回歸的全局融合網絡。他們還提出了一個密集的融合網絡，用於預測每個角的逐點偏移。 Shin等。 [117]首先從2D圖像中估計2D邊界框和對象的3D姿態，然後提取多個在幾何上可行的候選對象。這些3D候選對象被輸入到框迴歸網絡中以預測準確的3D對象框。 Wang等。文獻[111]沿着截頭圓錐體軸爲每個2D區域生成了一系列截頭圓錐體，並應用PointNet [5]爲每個截頭圓錐體提取特徵。對視錐級別的特徵進行重新生成以生成2D特徵圖，然後將其輸入到完全卷積的網絡中以進行3D框估計。該方法在基於2D圖像的方法中達到了最先進的性能，並在官方KITTI排行榜中排名第一。 Lehner等。 [118]首先在BEV圖上獲得了初步的檢測結果，然後根據BEV預測提取了小點子集（也稱爲斑塊）。應用局部優化網絡來學習補丁的局部特徵，以預測高度準確的3D邊界框。

其他方法。得益於軸對齊IoU在圖像目標檢測中的成功，Zhou等人。 [119]將兩個3D旋轉邊界框的IoU集成到幾個最先進的檢測器[105]，[109]，[120]中，以實現一致的性能改進。 Chen等。 [121]提出了一個兩階段的網絡架構，以同時使用點雲和體素表示。首先，將點雲體素化並饋入3D骨幹網絡以產生初始檢測結果。其次，進一步利用初始預測的內點特徵進行框精煉。儘管此設計從概念上講很簡單，但在保持16.7 fps速度的同時，可達到與PointRCNN [105]相當的性能。

受基於Hough投票的2D對象檢測器的啓發，Qi等 [122]提出了VoteNet直接對點雲中對象的虛擬中心點進行投票的方法，並通過彙總投票特徵來生成一組高質量的3D對象建議。 VoteNet僅使用幾何信息就大大超過了以前的方法，並在兩個大型室內基準（即ScanNet [8]和SUN RGB-D [115]）上達到了最先進的性能。然而，對於部分遮擋的物體，虛擬中心點的預測是不穩定的。此外，馮等[123]添加了方向矢量的輔助分支，以提高虛擬中心點和3D候選框的預測精度。此外，在提案之間建立了3D對象-對象關係圖，以強調用於精確對象檢測的有用功能。 Shi等人的發現啓發了3D對象的地面真相框提供對象內部零件的準確位置。 [124]提出了Part A2網絡，它由一個部分感知階段和一個部分聚集階段組成。零件感知階段使用具有稀疏卷積和稀疏反捲積的類UNet網絡來學習點狀特徵，以預測和粗略生成對象內零件位置。零件彙總階段採用RoI感知池，以彙總預測零件的位置，以進行盒評分和位置優化。

3.1.2 Single Shot Methods

這些方法使用單階段網絡直接預測類概率並回歸對象的3D邊界框。這些方法不需要區域提議的生成和後處理。因此，它們可以高速運行並且非常適合實時應用。根據輸入數據的類型，單次拍攝方法可以分爲兩類：基於BEV的方法和基於點雲的方法。

基於BEV的方法。這些方法主要以BEV表示爲輸入。楊等。 [100]離散化了具有等距間隔的場景的點雲，並以類似的方式對反射率進行編碼，從而得到規則的表示。然後應用完全卷積網絡（FCN）來估計物體的位置和航向角。這種方法在以28.6 fps的速度運行時，勝過大多數單發方法（包括VeloFCN [125]，3D-FCN [126]和Vote3Deep [127]）。後來，楊等人。 [128]利用高清（HD）映射提供的幾何和語義先驗信息來提高[100]的魯棒性和檢測性能。具體來說，他們從HD地圖中獲取了地面點的座標，然後用相對於地面的距離替換了BEV表示中的絕對距離，以彌補由道路坡度引起的平移差異。此外，他們沿通道維度將BEV表示與二進制路罩連接起來，以專注於移動物體。由於高清地圖並非隨處可見，因此他們還提出了在線地圖預測模塊，以從單個LiDAR點雲中估計地圖先驗。該地圖感知方法在TOR4D [100]，[101]和KITTI [10]數據集上明顯優於其基線。但是，它對不同密度的點雲的泛化性能很差。 [129]提出了一個標準化圖，以考慮不同LiDAR傳感器之間的差異。歸一化貼圖是具有與BEV貼圖相同的分辨率的2D網格，它對每個單元中包含的最大點數進行編碼。結果表明，該歸一化圖顯着提高了基於BEV的檢測器的歸納能力。

基於點雲的方法。這些方法將點雲轉換爲常規表示形式（例如2D地圖），然後應用CNN預測對象的類別和3D框。

Li等[125]提出了使用FCN進行3D對象檢測的第一種方法。他們將點雲轉換爲2D點圖，並使用2D FCN預測對象的邊界框和置信度。後來，他們[126]將點雲離散爲一個具有長度，寬度，高度和通道尺寸的4D張量，並將基於2D FCN的檢測技術擴展到3D域以進行3D對象檢測。與[125]相比，基於3D FCN的方法[126]的準確性提高了> 20％，但是由於3D卷積和數據稀疏性，不可避免地要花費更多的計算資源。爲了解決體素的稀疏性問題，Engelcke等人。 [127]利用以特徵爲中心的投票方案爲每個非空體素生成一組投票，並通過累積投票獲得卷積結果。它的計算複雜度方法與佔用的體素數量成正比。 Li等。 [130]通過堆疊多個稀疏3D CNN構造了3D骨幹網。此方法旨在通過充分利用體素的稀疏性來節省內存並加速計算。這個3D骨幹網絡提取了豐富的3D特徵用於對象檢測，而不會帶來繁重的計算負擔。

周等 [108]提出了一個基於體素的端到端可訓練框架VoxelNet。他們將點雲劃分爲等距的體素，並將每個體素中的要素編碼爲4D張量。然後連接區域提議網絡以產生檢測結果。儘管其性能強，但由於體素稀疏和3D卷積，該方法非常慢。 [120]使用稀疏卷積網絡[134]來提高[108]的推理效率。他們還提出了正弦誤差角損失，以解決0和方向之間的歧義。 Sindagi等[131]通過在早期融合圖像和點雲功能擴展了VoxelNet。具體來說，他們將[108]生成的非空體素投影到圖像中，並使用預先訓練的網絡爲每個投影體素提取圖像特徵。然後，將這些圖像特徵與體素特徵相結合，以生成準確的3D框。與[108]，[120]相比，該方法可以有效利用多模式信息來減少誤報和漏報。 Lang等人[109]提出了一種名爲PointPillars的3D對象檢測器。該方法利用PointNet [5]來學習以垂直列（支柱）組織的點雲的特徵，並將學習到的特徵編碼爲僞圖像。然後將2D對象檢測管道應用於預測3D邊界框。就平均精度（AP）而言，PointPillars優於大多數融合方法（包括MV3D [4]，RoarNet [117]和AVOD [97]）。而且，PointPillars在3D和BEV KITTI [10]基準上都可以以62 fps的速度運行，使其非常適合實際應用。

其他方法。 Meyer等。 [132]提出了一種稱爲LaserNet的高效3D對象檢測器。該方法預測每個點在邊界框上的概率分佈，然後組合這些每點分佈以生成最終的3D對象框。此外，將點雲的密集範圍視圖（RV）表示用作輸入，並提出了一種快速均值漂移算法來減少按點預測所產生的噪聲。 LaserNet在0至50米的範圍內實現了最先進的性能，其運行時間大大低於現有方法。 Meyer等。 [133]然後擴展LaserNet以利用RGB圖像（例如50至70米）提供的密集紋理。具體來說，他們通過將3D點雲投影到2D圖像上來將LiDAR點與圖像像素相關聯，並利用這種關聯將RGB信息融合到3D點中。他們還認爲3D語義分割是學習更好的表示形式的輔助任務。這種方法在保持激光（LaserNet）的高效率的同時，在遠距離（例如50至70米）目標檢測和語義分割方面都取得了顯着改善。

3.2 3D對象跟蹤

給定對象在第一幀中的位置，對象跟蹤的任務是估計其在後續幀中的狀態[135]，[136]。由於3D對象跟蹤可以使用點雲中的豐富幾何信息，因此有望克服基於2D圖像的跟蹤所面臨的一些缺點，包括遮擋，照明和比例變化。

受到Siamese網絡[137]成功用於基於圖像的對象跟蹤的啓發，Giancola等人[138]提出了一種具有形狀完成正則化的3D暹羅網絡。具體來說，他們首先使用卡爾曼濾波器生成候選，然後使用形狀正則化將模型和候選編碼爲緊湊的表示形式。餘弦相似度然後用於搜索下一幀中被跟蹤對象的位置。這種方法可以用作對象跟蹤的替代方法，並且明顯優於大多數2D對象跟蹤方法，包括Staple-CA [139]和SiamFC [137]。爲了有效地搜索目標物體，Zarzar等人[140]利用2D連體網絡在BEV表示上生成大量的粗略候選對象。然後，他們通過利用3D連體網絡中的餘弦相似度來優化候選者。這種方法在精度（即18％）和成功率（即12％）方面均明顯優於[138]。西蒙等[141]提出了一種語義點雲的3D對象檢測和跟蹤架構。他們首先通過融合2D視覺語義信息生成體素化的語義點雲，然後利用時間信息來提高多目標跟蹤的準確性和魯棒性。此外，他們引入了功能強大且簡化的評估指標（即“標度-旋轉-翻譯得分（SRF）”），以加快訓練和推理速度。他們提出的Complexer-YOLO提出了令人滿意的跟蹤性能，並且仍然可以實時運行。

3.3 3D場景流估計

與2D視覺中的光流估計類似，幾種方法已經開始從一系列點雲中學習有用的信息（例如3D場景流，時空信息）。

劉等[142]提出了FlowNet3D直接從一對連續的點雲中學習場景流。FlowNet3D通過流嵌入層學習點級特徵和運動特徵。但是，FlowNet3D存在兩個問題。首先，一些預測的運動矢量在方向上與地面真實情況大不相同。其次，很難將FlowNet應用於非靜態場景，尤其是對於以可變形對象爲主的場景。爲了解決這個問題，王等人[143]引入了餘弦距離損失以最小化預測和地面實況之間的角度。此外，他們還提出了點到平面的距離損失以提高剛性和動態場景的精度。實驗結果表明，這兩個損失項將FlowNet3D的準確性從57.85％提高到63.43％，並加快並穩定了訓練過程。 Gu等[144]提出了一種分層多面體格流網（HPLFlowNet）來直接估計來自大規模點雲的場景流。提出了幾個雙邊卷積層以從原始點雲恢復結構信息，同時降低了計算成本。

爲了有效地處理順序點雲，Fan和Yang [145]提出了PointRNN，PointGRU和PointLSTM網絡以及一個序列到序列模型來跟蹤運動點。 PointRNN，PointGRU和PointLSTM能夠捕獲時空信息併爲動態點雲建模。同樣，劉等[146]提出MeteorNet直接從動態點雲中學習表示。該方法學習從時空相鄰點聚合信息。進一步引入直接分組和鏈流分組來確定時間鄰居。但是，上述方法的性能受到數據集規模的限制。米塔爾等[147]提出了兩個自我監督的損失來訓練他們的網絡上的大型未標記的數據集。他們的主要思想是魯棒的場景流估計方法應該在前向和後向預測中都有效。由於場景流注釋的不可用，預測的變換點的最近鄰居被視爲僞地面實況。但是，真實的地面真實情況可能與最近的點不同。爲避免此問題，他們計算了相反方向的場景流，並提出了循環一致性損失以將點轉換爲原始位置。實驗結果表明，這種自我監督方法超越了基於監督學習的方法的最新性能。

3.4 小結

KITTI [10]基準是自動駕駛中最具影響力的數據集之一，已在學術界和工業界普遍使用。表2和表3分別顯示了在KITTI 3D和BEV基準測試中，不同檢測器所獲得的結果。可以觀察到以下幾點：

基於區域提案的方法是這兩個類別中研究最頻繁的方法，並且在KITTI測試3D和BEV基準上都大大優於單發方法。
現有的3D對象檢測器有兩個侷限性：首先，現有方法的遠程檢測能力相對較差。其次，如何充分利用圖像中的紋理信息仍然是一個開放的問題。
多任務學習是3D對象檢測的未來方向。例如，MMF [99]學習了一種跨模態表示，通過合併多個來實現最新的檢測性能任務。
3D對象跟蹤和場景流估計是新興的研究主題，自2019年以來逐漸引起越來越多的關注。

4.3D點雲分割

3D點雲分割需要了解全局幾何結構和每個點的細粒度細節。根據分割粒度，可以將3D點雲分割方法分爲三類：語義分割（場景級別），實例分割（對象級別）和部件分割（部件級別）。

4.1 3D語義分割

給定一個點雲，語義分割的目標是根據它們的語義將點雲分爲幾個子集。與3D形狀分類的分類法相似（請參閱第2節），語義分割有兩種範式，即基於投影的方法和基於點的方法。我們在圖8中顯示了幾種代表性方法。

4.1.1基於投影的網絡

中間正則表示可以組織或分類爲多視圖表示[148]，[149]，球形表示[150]，[151]，[152]，體積表示[153]，[154]，[155]，多面體如圖9所示，可以使用點陣表示[156]，[157]和混合表示[158]，[159]。

多視圖表示。 Felix等[148]首先從多個虛擬攝像機視圖將3D點雲投影到2D平面上。然後，將多流FCN用於預測合成圖像上的逐像素評分。每個點的最終語義標籤是通過將重新投影的分數融合到不同的視圖上而獲得的。同樣，Boulch等。 [149]首先使用多個相機位置生成了點雲的多個RGB和深度快照。然後，他們使用2D分割網絡對這些快照執行了逐像素標記。從RGB和深度圖像預測的分數將使用殘差校正進一步融合[160]。 Tatarchenko等人基於點雲是從局部歐幾里得表面採樣的假設。 [161]介紹了切線卷積的密集點雲分割。該方法首先將圍繞每個點的局部曲面幾何投影到虛擬切線平面。切線卷積然後直接在曲面幾何上進行。這種方法顯示了很大的可伸縮性，並且能夠處理具有數百萬個點的大規模點雲。總體而言，多視點分割方法的性能對視點選擇和遮擋很敏感，此外，由於投影步驟不可避免地會導致信息丟失，因此這些方法還沒有充分利用潛在的幾何和結構信息。

球形表示。爲了實現3D點雲的快速準確分割，Wu等人[150]提出了一個基於SqueezeNet [162]和條件隨機場（CRF）的端到端網絡。爲了進一步提高分割精度，引入了SqueezeSegV2 [151]，以利用無監督的域自適應流水線解決域移位問題。 Milioto等 [152]提出了RangeNet ++用於LiDAR點雲的實時語義分割。

首先將2D範圍圖像的語義標籤轉移到3D點雲，然後再使用有效的基於GPU的KNN基於後處理的步驟來減輕離散化錯誤和推理輸出模糊的問題。與單視圖投影相比，球形投影保留了更多信息，適合於LiDAR點雲的標記。但是，這種中間表示不可避免地帶來了一些問題，例如離散化誤差和遮擋。

體積表示。黃等[163]首先將點雲劃分爲一組佔用體素。然後，他們將這些中間數據輸入到全3D卷積神經網絡中，以進行體素分割。最後，爲體素內的所有點分配與體素相同的語義標籤。該方法的性能受到由點雲分區引起的體素的粒度和邊界僞像的嚴重限制。此外，Tchapmi等 [164]提出了SEGCloud來實現細粒度和全局一致的語義分割。這種方法引入了確定性三線性插值法，將3D-FCNN [165]生成的粗體素預測映射回點雲，然後使用完全連接CRF（FCCRF）來增強這些推斷的點標籤的空間一致性。孟等人 [153]介紹了一種基於內核的內插變分自動編碼器架構，以對每個體素內的局部幾何結構進行編碼。代替二進制佔用表示，對每個體素採用RBF以獲得連續表示和
捕獲每個體素中點的分佈。 VAE還用於將每個體素內的點分佈映射到緊湊的潛在空間。然後，對稱組和等效CNN均用於實現魯棒的特徵學習。

良好的可伸縮性是體積表示的顯着優點之一。具體來說，基於體積的網絡可以自由地在具有不同空間大小的點雲中進行訓練和測試。在全卷積點網絡（FCPN）[154]中，首先從點雲中分層提取不同級別的幾何關係，然後使用3D卷積和加權平均池來提取特徵併合並遠程依賴項。點雲，在推理過程中具有良好的可伸縮性。安吉拉（Angela）等[166]提出了ScanComplete以實現3D掃描完成和每像素語義標註。該方法利用了全卷積神經網絡的可擴展性，可以在訓練和測試過程中適應不同的輸入數據大小。從粗到精策略用於分層提高預測結果的分辨率。

體積表示自然是稀疏的，因爲非零值的數量只佔很小的百分比，因此在空間稀疏的數據上應用密集的卷積神經網絡效率低下。爲此，Graham等人 [155]提出了子流形稀疏卷積網絡。該方法通過將卷積的輸出限制爲僅與佔用的體素有關，從而大大減少了內存和計算成本。同時，其稀疏卷積還可以控制所提取特徵的稀疏性。該子流形稀疏卷積適用於高維和空間稀疏數據的有效處理。此外，Choy等[167]提出了一種稱爲MinkowskiNet的4D時空卷積神經網絡，用於3D視頻感知。爲了有效處理高維數據，提出了一種廣義的稀疏卷積算法。三邊平穩條件隨機字段被進一步應用以增強一致性。

總體而言，體積表示自然保留了3D點雲的鄰域結構。它的常規數據格式還允許直接應用標準3D卷積。這些因素導致了該領域性能的穩步提高。然而，體素化步驟固有地引入了離散化僞像和信息丟失。通常，高分辨率會導致較高的內存和計算成本，而低分辨率會導致細節丟失。在實踐中選擇合適的網格分辨率並非易事。

四面體晶格表示。 Su等 [156]提出了基於雙邊卷積層（BCL）的稀疏格子網絡（SPLATNet）。該方法首先將原始點雲插值到四面體的稀疏晶格，然後將BCL應用於在稀疏填充的晶格的佔據部分上進行卷積。然後將濾波後的輸出內插回原始點雲。另外，該方法允許靈活地聯合處理多視圖圖像和點雲。此外，Rosu等 [157]提出了LatticeNet來實現大點雲的有效處理。還引入了一個稱爲DeformsSlice的依賴數據的插值模塊，以將晶格特徵反投影到點雲。

混合表示。爲了進一步利用所有可用信息，已經提出了幾種方法來從3D掃描中學習多模式特徵。 Angela和Matthias [158]提出了一個聯合3D多視圖網絡，以結合RGB特徵和幾何特徵。使用3D CNN流和幾個2D流來提取特徵，並提出了可微分的反投影層，以聯合融合學習到的2D嵌入和3D幾何特徵。此外，Hung等。 [168]提出了一個基於點的統一框架，以從點雲中學習2D紋理外觀，3D結構和全局上下文特徵。該方法直接應用基於點的網絡，從稀疏採樣的點集中提取局部幾何特徵和全局上下文，而無需任何體素化。 Jaritz等。 [159]提出了Multiview PointNet（MVPNet）來聚合2D多視圖圖像的外觀特徵和規範點雲空間中的空間幾何特徵。

4.1.2基於點的網絡

基於點的網絡直接在不規則點雲上工作。然而，點雲是無序的和無組織的，因此直接應用標準的CNN是不可行的。爲此，提出了開拓性的工作PointNet [5]來學習使用共享MLP的每點特徵和使用對稱池功能的全局特徵。基於點網，最近已經提出了一系列基於點的網絡。總體而言，這些方法可以粗略地分爲按點MLP方法，點卷積方法，基於RNN的方法和基於圖的方法。

**逐點MLP方法。**這些方法通常使用共享MLP作爲其網絡中的基本單位，以提高效率。然而，由共享的MLP提取的逐點特徵無法捕獲點雲中的局部幾何以及點之間的交互[5]。爲了捕獲每個點的更廣泛的上下文並學習更豐富的局部結構，已引入了幾個專用網絡，包括基於相鄰特徵池，基於注意力的聚合以及局部全局特徵串聯的方法。

鄰近特徵池：爲了捕獲局部幾何圖案，這些方法通過彙總來自局部鄰近點的信息來學習每個點的特徵。特別是，PointNet ++ [27]對來自較大局部區域的點進行分層和漸進式學習，如圖10所示。還提出了多尺度分組和多分辨率分組，以克服由不均勻和密度變化引起的問題。點雲。後來，江等 [114]提出了一個PointSIFT模塊來實現定向編碼和尺度感知。該模塊通過三階段有序卷積運算對來自八個空間方向的信息進行堆疊和編碼，提取並連接多尺度特徵以實現對不同尺度的適應性。與PointNet ++中使用的分組技術（即球查詢）不同，Francis等人。 [169]利用K-means聚類和KNN分別定義了世界空間和學習特徵空間中的兩個鄰域。基於預期來自同一類的點在特徵空間中更接近的假設，引入成對的距離損失和質心損失以進一步規範化特徵學習。爲了模擬不同點之間的相互作用，趙等人[31]提出了PointWeb，以通過密集構建本地完全鏈接的網絡來探索本地區域中所有對點之間的關係。提出了一種自適應特徵調整（AFA）模塊來實現信息交換和特徵細化。此聚合操作有助於網絡學習區別性特徵表示。張等[170]基於同心球殼的統計數據，提出了一個稱爲Shellconv的置換不變卷積。該方法首先查詢一組多尺度的同心球，然後在不同的殼內使用最大池化操作彙總統計信息，使用MLP和一維卷積獲得最終的卷積輸出。 Hu等。 [95]提出了一種高效且輕量級的網絡，稱爲RandLA-Net，用於大規模點雲處理。該網絡利用隨機點採樣在存儲和計算方面實現了顯着的效率。進一步提出了局部特徵聚集模塊以捕獲和保留幾何特徵。

基於注意的聚合： 爲了進一步提高分割的準確性，引入了一種注意機制[90]來進行點雲分割。楊等。 [29]提出了一個小組改組注意力以建模點之間的關係的方法，並提出了一種排列不變，任務不可知且可區分的Gumbel子集採樣（GSS）來代替廣泛使用的最遠點採樣（FPS）方法。對異常值敏感，並可以選擇代表點的子集。爲了更好地捕獲點雲的空間分佈，Chen等人。 [171]提出了一個局部空間感知（LSA）層來學習基於點雲的空間佈局和局部結構的空間感知權重。與CRF類似，Zhao等[172]提出了一種基於注意力的分數細化（ASR）模塊，對網絡產生的細分結果進行後處理。通過將相鄰點的分數與學習的注意力權重合並在一起，可以細化初始分割結果。該模塊可以輕鬆集成到現有的深度網絡中，以提高最終的細分效果。

局部-全局串聯：Zhao等[85]提出了一個排列不變的PS2-Net，以結合點雲中的局部結構和全局上下文。 Edgeconv [60]和NetVLAD [173]反覆堆疊以捕獲局部信息和場景級全局特徵。

點卷積方法。 這些方法傾向於爲點雲提出有效的卷積運算。 [49]提出了一種點式卷積算子，其中將相鄰點合併到核單元中，然後與核權重進行卷積。 Wang等。 [174]提出了一個基於參數連續卷積層的稱爲PCCN的網絡。該層的內核功能由MLP參數化，並跨越連續向量空間。休斯等。 [42]提出了一種基於核點卷積（KPConv）的核點全卷積網絡（KP-FCNN）。具體地，KPConv的卷積權重由到核點的歐幾里得距離確定，並且核點的數量不是固定的。核心點的位置被公式化爲球空間中最佳覆蓋率的優化問題。請注意，半徑鄰域用於保持一致的接收場，而網格二次採樣用於每一層，以在變化的點雲密度下實現高魯棒性。在[175]中，弗朗西斯等人。提供了豐富的消融實驗和可視化結果，以顯示接受場對基於聚集的方法性能的影響。他們還提出了擴張點卷積（DPC）運算來聚集擴張後的鄰近特徵，而不是K個最近的鄰居。該運算被證明在增加接收域方面非常有效，並且可以輕鬆地集成到現有的基於聚集的網絡中。

基於RNN的方法。 爲了從點雲中捕獲固有的上下文特徵，遞歸神經網絡（RNN）也已用於點雲的語義分割。基於PointNet [5]，Francis等人。 [180]首先將點的塊轉換爲多尺度塊和網格塊，以獲得輸入級別的上下文。然後，將PointNet提取的逐塊特徵順序輸入到合併單元（CU）或循環合併單元（RCU）中，以獲得輸出級別的上下文。實驗結果表明，合併空間上下文對於提高分割效果非常重要。黃等。 [179]提出了一種輕量級的局部依賴建模模塊，並利用切片池層將無序點特徵集轉換爲特徵向量的有序序列。 Ye等。 [181]首先提出了點向金字塔合併（3P）模塊來捕獲從粗到細的局部結構，然後利用雙向分層RNN進一步獲得遠程空間依賴性，然後將RNN應用於實現末端然而，當將局部鄰域特徵與全局結構特徵進行聚合時，這些方法會從點雲中丟失豐富的幾何特徵和密度分佈[189]。爲了減輕剛性和靜態合併操作引起的問題，Zhao等人。 [189]提出了一個動態聚合網絡（DAR-Net）來考慮全局場景複雜性和局部幾何特徵。使用自適應的接收字段和節點權重來動態聚合中間特徵。 Liu et al。[190]提出了3DCNN-DQN-RNN，用於大規模點雲的高效語義解析。該網絡首先使用3D CNN網絡學習空間分佈和顏色特徵，DQN進一步用於對類對象進行定位。最終的級聯特徵向量被饋送到殘差RNN中以獲得最終的分割結果。

基於圖的方法。爲了捕獲3D點雲的基本形狀和幾何結構，有幾種方法可以求助於圖形網絡。 Loic等[182]將點雲表示爲一組相互連接的簡單形狀和超點，並使用屬性有向圖（即超點圖）來捕獲結構和上下文信息。然後，將大規模點雲分割問題歸結爲三個子問題，即幾何同構分割，超點嵌入和上下文分割。爲了進一步改善分割步驟，Loic和Mohamed [183]提出了一種有監督的框架，將點雲過度分割爲純超點。該問題被表述爲由鄰接圖構成的深度度量學習問題。此外，還提出了一種圖結構的對比損失，以幫助識別對象之間的邊界。

爲了更好地捕捉高維空間中的局部幾何關係，Kang等人 [191]提出了一種基於圖嵌入模塊（GEM）和金字塔注意網絡（PAN）的PyramNet。 GEM模塊將點雲公式化爲有向無環圖，並使用協方差矩陣替換歐幾里得距離來構造相鄰相似矩陣。 PAN模塊中使用具有四個不同大小的卷積內核來提取具有不同語義強度的特徵。在[184]中，提出了圖注意力卷積（GAC）來從局部相鄰集合中有選擇地學習相關特徵。通過基於它們的空間位置和特徵差異，將注意力權重動態分配給不同的相鄰點和特徵通道，可以實現此操作。 GAC可以學習捕獲區分特徵以進行細分，並且具有與常用CRF模型相似的特徵。

4.2 實例細分

與語義分割相比，實例分割更具挑戰性，因爲它需要更準確，更細粒度的點推理。特別是，它不僅需要區分具有不同語義含義的點，而且還需要分離具有相同語義含義的實例。總的來說，現有方法可以分爲兩類：基於提議的方法和不涉及提議的方法。圖11中說明了幾種里程碑方法。

4.2.1基於提案的方法

這些方法將實例分割問題轉換爲兩個子任務：3D對象檢測和實例掩碼預測。侯等人。 [192]提出了一種3D全卷積語義實例分割（3D-SIS）網絡，以在RGBD掃描上實現語義實例分割。該網絡從顏色和幾何特徵中學習。與3D對象檢測類似，3D區域提議網絡（3D-RPN）和3D感興趣區域（3D-RoI）層用於預測邊界框位置，對象類別標籤和實例蒙版。遵循綜合分析策略，Yi等人。 [193]提出了一種可生成形狀的提案網絡（GSPN），以生成高對象的3D提案。這些建議由基於區域的PointNet（R-PointNet）進一步完善。最終標籤是通過預測每個類標籤的每點二進制掩碼獲得的。與從點雲直接回歸3D邊界框不同，此方法通過加強幾何理解來消除大量毫無意義的建議。通過將2D全景分割擴展到3D映射，Gaku等人。 [194]提出了一種單行立體3D映射系統，以共同實現大規模3D重建，語義標記和實例分割。他們首先利用2D語義和實例分割網絡來獲得按像素分類的全景標籤，然後將這些標籤集成到體積圖上。進一步使用完全連接的CRF來實現準確的分割。該語義映射系統可以實現高質量的語義映射和區分對象識別。 [195]提出了一種稱爲3D-BoNet的單階段，無錨定且端到端的可訓練網絡，以在點雲上實現實例分割。該方法直接爲所有潛在實例迴歸粗糙的3D邊界框，然後利用點級二進制分類器獲取實例標籤。特別是，將邊界框生成任務表述爲最佳分配問題。還提出了多準則損失函數來規範生成的邊界框。該方法不需要任何後處理，並且計算效率高。張等。 [196]提出了一個用於大型室外LiDAR點雲分割的網絡。該方法使用自注意塊學習點雲鳥瞰圖上的特徵表示。最終實例標籤是根據預測的水平中心和高度限制獲得的。總體上，基於建議的方法直觀，簡單，實例分割結果通常具有良好的客觀性。但是，這些方法需要多階段的訓練和對冗餘提議的修剪，因此它們通常很耗時且計算量大。

4.2.2 Proposal-free Methods

免提案方法[197]，[198]，[199]，[200]，[201]，[202]沒有對象檢測模塊。相反，他們通常將實例分割視爲語義分割之後的後續聚類步驟。特別是，大多數現有方法都是基於這樣的假設，即屬於同一實例的點應具有非常相似的特徵。因此，這些方法主要集中於判別特徵學習和點分組。

在一項開創性的工作中，Wang等人 [197]首先引入了一個相似性團體提案網絡（SGPN）。該方法首先學習每個點的特徵和語義圖，然後引入一個相似度矩陣來表示每個配對特徵之間的相似度。爲了學習更多的鑑別特徵，他們使用雙鉸損失來相互調整相似度矩陣和語義分割結果。最後，採用啓發式和非最大抑制方法將相似點合併爲實例。由於相似矩陣的構造需要大的存儲器消耗，因此該方法的可擴展性受到限制。同樣，劉等 [201]首先利用子流形稀疏卷積[155]來預測每個體素的語義分數和相鄰體素之間的親和力。然後他們引入了一種聚類算法，根據預測的親和力和網格拓撲將點分組爲實例。 [202]提出了一種學習判別式嵌入的結構感知損失。這種損失既考慮了特徵的相似性，又考慮了點之間的幾何關係。基於注意力的圖CNN進一步用於通過彙總來自鄰居的不同信息來自適應地精煉所學習的特徵。

由於一個點的語義類別和實例標籤通常相互依賴，因此提出了幾種方法將這兩個任務耦合爲一個任務。 [198]通過引入端到端和可學習的關聯分段實例和語義（ASIS）模塊，整合了這兩個任務。實驗表明，通過此ASIS模塊，語義特徵和實例特徵可以相互支持，從而提高性能。同樣，Pham等。 [199]首先引入了多任務逐點網絡（MT-PNet），爲每個點分配標籤，並通過引入判別性損失來對嵌入特徵空間的規則進行規範[203]。然後，他們將預測的語義標籤和嵌入融合到多值條件隨機字段（MV-CRF）模型中，以進行聯合優化。最後，均值場變分推理用於產生語義標籤和實例標籤。 Hu等。 [204]首先提出了一種動態區域增長（DRG）方法，將點雲動態分離爲一組不相交的補丁，然後使用無監督的K-means ++算法對所有這些補丁進行分組。然後在補丁之間的上下文信息的指導下執行多尺度補丁分段。最後，將這些標記的補丁合併到對象級別，以獲得最終的語義和實例標籤。

爲了在完整的3D場景上實現實例分割，Cathrin等人 [200]提出了一種混合的2D-3D網絡，可以從BEV表示和點雲的局部幾何特徵共同學習全局一致的實例特徵。然後將學習到的特徵進行組合以實現語義和實例分割。注意，不是啓發式GroupMerging算法[197]，而是更靈活的Meanshift [205]算法用於將這些點分組爲實例。可替代地，還引入了多任務學習以進行實例分割。 Jean等。 [206]學習了每個實例的獨特功能嵌入和指向對象中心的方向信息。提出了特徵嵌入損失和方向損失來調整潛在特徵空間中學習的特徵嵌入。採用均值漂移聚類和非最大抑制將體素分組爲實例。該方法可以達到ScanNet [8]基準的最新性能。此外，預測的方向信息對於確定實例的邊界特別有用。張等。 [207]將概率嵌入引入到點雲的實例分割中。該方法還結合了不確定性估計，併爲聚類步驟提出了新的損失函數。

總之，無提議的方法不需要通常昂貴的區域提議組件。但是，由於這些方法沒有顯式檢測對象邊界，因此通過這些方法分組的實例段的客觀性通常較低。

4.3 Part Segmentation

3D形狀的 Part Segmentation 難度是雙重的。首先，具有相同語義標籤的形狀零件具有較大的幾何變化和模糊性。其次，該方法應對噪聲和採樣具有魯棒性。

提出了VoxSegNet [208]，以在有限的解決方案上實現3D體素化數據的細粒度分割。提出了空間密集提取（SDE）模塊（由堆疊的殘差殘差塊組成），以從稀疏的體積數據中提取多尺度判別特徵通過逐步應用注意力特徵聚合（AFA）模塊，可以對學習的特徵進行進一步的加權和融合。 Evangelos等 [209]結合FCN和基於表面的CRF來實現端到端3D零件分割。他們首先從多個視圖生成圖像以實現最佳的表面覆蓋率，然後將這些圖像輸入2D網絡以生成置信度圖。然後，這些置信度圖由基於表面的CRF聚合，該CRF負責整個場景的一致標記。 [210]引入了一種同步頻譜CNN（SyncSpecCNN）來對不規則和非同構形狀圖進行卷積。爲了解決零件多尺度分析和形狀間信息共享的問題，引入了卷積核和譜變換器網絡的譜參數化方法。

Wang等[211]首先通過引入形狀完全卷積網絡（SFCN）並將三個低級幾何特徵作爲其輸入，在3D網格上執行形狀分割。然後，他們利用基於投票的多標籤圖割來進一步細化細分結果。朱等。 [212]提出了一種用於3D形狀共分割的弱監督CoSegNet。該網絡將未分割的3D點雲形狀的集合作爲輸入，並通過迭代地最小化組一致性損失來生成形狀零件標籤。與CRF相似，提出了一個預訓練的零件細化網絡，以進一步細化和去除零件提案的噪聲。 Chen等。 [213]提出了一種分支自動編碼器網絡（BAE-NET），用於無監督，單發和弱監督的3D形狀共分割。該方法將形狀共分割任務公式化爲表示學習問題，旨在通過最大程度地減少形狀重構損失來找到最簡單的零件表示。基於編碼器-解碼器體系結構，該網絡的每個分支都可以學習特定零件形狀的緊湊表示。然後將從每個分支學習的特徵和點座標饋送到解碼器以生成二進制值（指示該點是否屬於此部分）。該方法具有良好的泛化能力，可以處理大型3D形狀集合（多達5000多種形狀）。但是，它對初始參數敏感，並且沒有將形狀語義合併到網絡中，這阻礙了該方法在每次迭代中獲得魯棒和穩定的估計。

4.4小結

表4顯示了通過公開基準測試的現有方法所獲得的結果，包括S3DIS [176]，Semantic3D [9]，ScanNet [102]和SemanticKITTI [177]。以下問題需要進一步調查：

基於點的網絡是研究最頻繁的方法。但是，點表示自然不具有顯式的相鄰信息，大多數現有的基於點的方法都必須訴諸昂貴的鄰居搜索機制（例如KNN [52]或Ball查詢[27]）。這會固有地限制這些方法的效率，因爲鄰居搜索機制需要很高的計算成本和不規則的內存訪問[214]。
從不平衡數據中學習仍然是點雲分割中一個具有挑戰性的問題。儘管有幾種方法[42]，[170]，[182]取得了顯着的總體表現，但它們在少數羣體中的表現仍然有限。例如，RandLA-Net [95]在Semantic3D的reduce-8子集上實現了76.0％的總體IoU，但在Hardscape類上卻達到了41.1％的非常低的IOU。
現有的大多數方法[5]，[27]，[52]，[170]，[171]都適用於小點雲（例如，具有4096個點的1m1m）。實際上，由深度傳感器獲取的點雲通常是巨大且大規模的。因此，期望進一步研究大規模點雲的有效分割問題。*
少數著作[145]，[146]，[167]已開始從動態點雲中學習時空信息。期望時空信息可以幫助提高後續任務的性能，例如3D對象識別，分段和完成。

5.結論

本文介紹了有關3D理解的最新方法的當代概況，包括3D形狀分類，3D對象檢測和跟蹤以及3D場景和對象分割。已經對這些方法進行了全面的分類和性能比較。還涵蓋了各種方法的優缺點，並列出了潛在的研究方向。

文章目錄