3D-MiniNet實時LIDAR點雲語義分割的深度學習方法整理

3D-MiniNet: 從點雲中學習2D表示以實現快速有效的3D LIDAR語義分割(2020)

西班牙Zaragoza大學的研究人員提出的最新3D點雲語義分割的深度學習方法,網絡分爲兩大部分,提出新的滑動框搜索球形投影后的“像素點”,接着使用改進的MiniNetV2網絡進行分割,然後將帶着標籤數據的點反投影回3D點雲,最後加入後處理過程,網絡結構比較清晰。發佈的兩個不同參數大小的網絡在emanticKITTI和KITTI數據集上都刷新了成績,成爲新的SoTA。源碼可能會在四月份開源,作者提到實現部分會參照RangeNet++和LuNet的網絡。

摘要

LIDAR語義分割爲每個由LIDAR測量的3D點分配一個語義標籤,這已成爲許多機器人應用(例如自動駕駛)的一項重要任務。快速高效的語義分割方法來滿足實際應用中的時間和算力的要求。這項工作介紹了3D-MiniNet,這是一種結合3D和2D學習層的LIDAR語義分割新方法。它首先通過新穎的投影從原始點學習2D表示,從3D數據中抽取局部和全局信息。該表示被輸入到一個2D全卷積神經網絡(FCNN),可產生2D語義分割。然後獲得的2D語義標籤被重新投影回3D空間,並通過後處理模塊進行了增強。模型的新穎之處在於投影學習模塊。作者進行了詳細的消融研究,顯示出模塊所設計的每個組件如何對3D-MiniNet的最終性能做出貢獻。在SemanticKITTI和KITTI數據集上進行了驗證,使用3D-MiniNet-tiny和3D-MiniNet分別刷新3D實時(real-time)分割與點雲分割的記錄(當前的SOTA),比以前的方法更快,參數效率更高。

I. 前言

機器人自主導航系統使用傳感器感知周圍的世界,RGB攝像機和LIDAR是常見的必不可少的部件。自主機器人系統的關鍵組成部分之一是語義分割。語義分割爲每個LIDAR點或相機像素分配一個類別標籤。這種詳細的語義信息對於現實世界中動態場景中的決策至關重要。在自主機器人系統中,LIDAR語義分割爲自動機器人提供了非常有用的信息,如SLAM,自動駕駛等任務,尤其是用於識別動態的對象。

因此,這項任務非常需要能夠快速有效地提供準確語義信息的點雲分割模型,這對於處理3D LIDAR數據尤其具有挑戰性。目前存在兩類分割方法:

  • Point-based:直接對點雲數據進行處理,對於實時系統而言,在高幀數下計算量太大。
  • Projection-based :先將3D信息投影到2D圖像中的方法。效率更高,但通常精度較低,因爲沒有利用原始3D信息。獲得計算速度快速,參數量小的語義分割模型是當前的需求也是研究的重點。

受到Point-based和Projection-based方法的啓發,本文提出了3D-MiniNet,這是一種新穎的高效的3D LIDAR語義分割方法。 3D-MiniNet首先直接在3D點上執行基於點的操作以學習豐富的2D表示,然後通過快速2D全卷積神經網絡計算進行分割。最後,將語義標籤重新投影回3D點,並通過一種快速的後處理方法。

該網絡的主要貢獻是投影學習模塊,該模塊首先學習對點雲進行成組,提取局部和全局特徵,並生成學習點雲的2D表示。利用在該模塊上進行的消融研究,可以顯示每個部分如何提高3D-MiniNet的性能。

爲了向這個新穎的模塊提供3D點的相鄰組,作者實現了快速點雲近鄰搜索,該搜索會生成3D點的結構化組。這些組中的每一個對應於2D表示中的單個像素。爲了從這種表示中學習分割,作者使用MiniNetV2(2D分割網絡模型)的修改版本。最終在SemanticKITTI基準和KITTI數據集上進行驗證。網絡的最佳配置在兩個基準測試中均獲得了比以前的最新技術更高的mIoU,計算速度提升了2倍,參數減少爲之前模型的1/12。

在這裏插入圖片描述

II.相關工作

A.2D語義分割

當前的2D語義分割的state-of-the-art基本全是深度學習方法。2D語義分割架構是從原本用於分類任務的卷積神經網絡(CNN)演變而來,只需要在CNN最後添加一個解碼器。FCNN爲現代語義分割架構開闢了道路。這項工作的作者率先提出對CNN學習到的圖片特徵進行雙線性內插upsample,直到取得輸入時的分辨率大小,並計算每個像素的交叉熵損失。另一個早期的方法是SegNet,提出了一種使用unpooling操作作爲上採樣層的對稱編碼器-解碼器結構。最近的工作通過添加最初在CNN體系結構中提出的用於分類任務的新穎操作或模塊,改進了這些早期的分段體系結構。

FC-DenseNet 學習DenseNet使用密集模塊。 PSPNet使用ResNet作爲其編碼器,將金字塔池化模塊引入到CNN末尾層中,以學習有效的全局上下文先驗。

Deeplab-v3 +是分割效果最好的架構之一,其編碼器基於Xception,它利用了深度可分離卷積和空洞卷積,降低了模型參數和計算消耗。

就網絡的效率而言,ENet建立了諸如ERFNet,ICNet等後續工作的基礎。主要思想是在低分辨率下工作,即快速下采樣。 MiniNetV2使用了多次擴展的深度可分離卷積,可以有效地學習局部和全局空間關係。 在這項工作中,我們以MiniNetV2爲網絡骨幹(backbone),並對其進行調整以捕獲原始LIDAR點雲的信息。

B. 3D語義分割

有兩類主要的點雲深度學習方法:

1)基於點雲的方法

點雲的無序性限制了通用的卷積神經網絡CNN對點雲數據進行處理。 基於點雲進行處理的先驅方法和基礎是PointNet網絡。 PointNet建議通過共享的MLP(多層感知器)來學習到每個點的特徵,然後再使用對稱函數maxpooling來處理點雲的無序性。 後來基於PointNet又提出了許多新的網絡結構。 遵循逐點MLP思想,PoinNet ++以分層的方式對點進行分組,並從較大的局部區域中學習。同時作者還提出了一種多尺度分組方法,以應對數據的非均勻性。 相反,還有一些方法遵循卷積思想提出了不同類型的操作,比如將相鄰點合併到內核單元中,以便能夠執行逐點卷積。還有一些工作採用圖網絡來捕獲點雲的基本幾何結構,使用有向圖來捕獲結構和上下文信息。 爲此,作者將點雲表示爲一組互連的超點。

2)基於投影的方法

原始點雲數據的不同中間表示形式已用於3D語義分割。 Felix等人證明多視圖表示非常有效,作者建議將3D點投影到來自不同捕獲視圖的幾個2D圖像中,然後對每個圖像獨立執行2D語義分割,每個點通過融合來自不同視圖的不同重投影得分來計算其標籤。這種方法的缺點是需要多次運行神經網絡運算,每個視圖都要一次。 SegCloud利用體素表示,這是對3D空間進行編碼和離散化的一種非常常用的方法。這種方法將3D體素輸入3D-FCNN。然後,作者介紹了確定性的三線性插值,將粗體素預測映射回原始點雲,並在最後一步中加入應用CRF優化輸出。這種體素表示的主要缺點是3D-FCNN對於實時應用程序的執行時間非常慢。 Su等人提出了SPLATNet,它使用了另一種表示形式:四面體晶格表示。這個該方法將3D點雲插值到一個四面體的稀疏晶格,然後應用雙邊卷積層對所表示的佔用部分進行卷積。後來提出了LatticeNet 來改進SPLATNet,並提出了其DeformsSlice模塊,用於將晶格特徵重新投影回點雲。到目前爲止,允許更有效處理的表示形式是球形表示形式,它是LIDAR語義分段的最常見投影。它是一種2D投影,允許應用2D圖像操作,該操作非常快速並且在識別任務上效果很好。 基於SqueezeNet體系結構的SqueezeSeg及其後繼改進SqueezeSegV2,都表明通過球面投影,可以完成非常有效的語義分割任務。 Milioto等人的最新工作,將DarkNet架構與基於GPU的後處理方法相結合,與之相比,對於實時語義分割而言,該方法比CRF可獲得更好的結果。

與基於投影的方法相反,基於點的方法是直接對原始數據進行操作而不會丟失任何信息。 但基於投影的方法往往更快,更適合於數據的非結構化性質,尤其是對於像LIDAR掃描這樣的大型輸入,會生成數十萬個點。LuNet是結合基於投影的方法和基於點的方法的第一篇著作。 它依賴於離線的點近鄰搜索,這使方法對實時應用程序不可行。 此外,它只有一個MLP池操作,只能從原始點學習局部信息。在3D-miniNet中,通過實現基於GPU的快速近鄰搜索並集成了一個從原始3D點中學習上下文信息的新穎投影模塊,解決了LuNet的缺點。
在這裏插入圖片描述
通過快速3D近鄰搜索算法,輸入的M個點(具有C1C_1個特徵)被分爲N個點的P組。 每個點都有一個 C1C_1特徵向量,該向量在此過程中使用相對於每個組的數據擴展到C2C_2。 3DMiniNet將對點雲組進行處理並預測每個點一個語義標籤。 最後加入後處理方法用於完善最終結果。

III. 3D-minNet: LIDAR 點雲分割

上圖總結了我們新穎,有效的LIDAR語義分割方法。它由三個模塊組成:

  • (A)快速近鄰搜索;
  • (B)3D-MiniNet,共輸入P組,每組N個點,並輸出分割後的點雲
  • (C)基於KNN的後處理,可優化最終細分。

與基於投影的方法相比,有兩個主要問題限制了基於點的模型以實時性任務上的使用:

  • 3D點近鄰搜索是必需的,但是使用3D點進行近鄰搜索十分緩慢
  • 同樣的,在3D點雲上進行MLP操作也較慢(如PointNet),特別是與2D卷積方法相比。

這是點雲的特性決定的,爲了緩解這兩個問題,本文的方法包括使用一個快速點近鄰搜索代理(見第III.AIII.A介紹)和一個用於最小化基於點操作的計算模塊,該模塊使用原始3D點作爲輸入並輸出可使用 2D CNN進行處理的2D表示(第III.B.1III.B.1中介紹)。

A. Fast 3D Point Neighbor Search

該方法的第一步是將輸入的原始點雲投影到W×HW\times H的球面投影,將3D點(x,y,zx,y,z)映射到2D座標(u,vu,v)中,這部分是點雲球面投影的通用操作,

(uv)=(12[1arctan(y,x)π1]W[1(arcsin(zr1)+fup)f1]H)\left(\begin{array}{c} u \\v \end{array}\right)=\left(\begin{array}{c} \frac{1}{2}\left[1-\arctan (y, x) \pi^{-1}\right] W \\ {\left[1-\left(\arcsin \left(z r^{-1}\right)+\mathrm{f}_{\mathrm{up}}\right) \mathrm{f}^{-1}\right] H} \end{array}\right)
對於以上球面投影的的公式是經過標準化後的形式,還有很多其他的變形,其中ff是傳感器的垂直視場,初始特徵數C1=(x,y,z,depth,remission)C_1=(x,y,z,depth,remission)

使用滑動窗口方法在球面投影空間中執行點近鄰搜索。 與卷積層類似,通過滑動k×kk×k窗口來獲得像素組,即投影點。生成的點組沒有交集,即每個點僅屬於一個組。 此步驟生成PP個點組,每個點組NN個點(N=k2N = k^2),其中使用了來自球面投影的所有點(P×N=W×HP×N = W×H)。 在爲這些點組提供實際的分割模塊3D-MiniNet之前,必須增強每個點的特徵。 對於得到的每個點組,我們計算C1C_1中五個特徵的平均值以及每個點相所在組的各個特徵平均值,得到相對應的rr(relative)值。 此外,我們計算每個點與所在點組的座標均值3D歐式距離。 因此,每個點現在有11個特徵:
C2={x,xr,y,yr,z,zr, depth, depthr, remission, remissionr,dEuc}C_2=\begin{aligned} &\left\{x, x_{\mathrm{r}}, y, y_{\mathrm{r}}, z, z_{\mathrm{r}}, \text { depth, depth}_{\mathrm{r}}, \text { remission, remission}_{\mathrm{r}},d_{E u c}\right\} \end{aligned}

B. 3D-MiniNet

3D-MiniNet由兩個模塊組成,如圖3所示。對於論文所提出的投影模塊,它利用原始點雲並計算2D表示,接着作者使用基於MiniNetV2的高效骨幹網絡來計算語義分割。
在這裏插入圖片描述
1)投影學習模塊:

此模塊的目標是將原始3D點轉換爲可用於有效分割的2D表示。 該模塊的輸入是一組3D點組(P×N×C2P×N×C_2),這些點組是通過在球形投影上進行滑動窗口搜索而收集的,如前面小節所述。
從輸入數據中提取以下三種類型的特徵(參見圖3的左部分),並在最後的模塊步驟中將其融合:

  • 局部特徵提取器:

    第一個特徵是類似PointNet的局部特徵提取(圖3的投影學習模塊的頂部)。 它運行在組之間共享的四個線性層,然後是BatchNorm和LeakyRelu。文中將線性層實現爲跨張量的1x1卷積,從而實現了非常高效的計算。

  • 上下文特徵提取器:

    第二個特徵提取(圖3的投影學習模塊的中間部分)從這些點中學習上下文信息。該上下文特徵提取器的輸入是局部特徵提取器的第二線性層的輸出。將該張量最大化,然後運行快速近鄰搜索以獲取點組。在這種情況下,使用3×3的滑動窗口分別以1,2,3的不同膨脹率執行三個不同的分組。膨脹率與卷積核具有相同的含義。文中使用零填充和跨度爲1來保持相同的大小。每次分組後,執行一次線性化+BatchNorm+LeakyRelu。將這兩個特徵提取器模塊的輸出連接起來,並在N維上應用maxpool操作。此maxpool操作使特徵沿近鄰維度具有更高的響應,相對於近鄰維度是階數不變的。 maxpool操作還使學習對於無點雲信息(無點雲投影的球面投影座標)的像素更健壯。

  • 空間特徵提取器:

    最後的特徵提取操作是內核1×N的卷積層(圖3的投影學習模塊的底部)。 當存在底層空間結構時,卷積可以提取相對於相鄰點的每個點的特徵,因爲上一步的點組是從2D球形投影中提取的。

  • 特徵融合:

    最後,應用了具有自注意模塊的特徵融合。 它學習將特徵空間縮小爲指定數量的特徵,從而瞭解哪些特徵更爲重要。 包括三個階段:特徵提取輸出的級聯將生成的張量reshape爲(W/4×H/4×C7W / 4×H / 4×C_7),這是一種自注意操作,再乘以(均值池化+1×1卷積+Sigmid激活函數),具有與輸入相同的串聯張量,再經過一個1×1卷積層+BatchNorm+LeakyRelu,這是將輸出限制爲C6C_6個特徵數。 所有實現細節,例如每層的特徵數量,均會在後文實驗部分說明,並展示了該學習模塊的每個部分如何有助於提高3D-MiniNet的性能。

2). 2D分割模塊(MiniNet作爲Backbone):

一旦前一個模塊已計算出W/4×H/4×C6W / 4×H / 4×C_6張量,便使用有效的CNN計算2D語義分割(有關詳細的視覺描述,參見圖3的MiniNet主幹)。 作者主要使用FCNN而不是多個MLP層的操作,原因是考慮相比較而言多層MLPs,使用卷積操作的計算更快。

基於MiniNetV2架構建立FCNN。 此處編碼器使用L1L_1層深度可分離卷積和L2L_2層多重擴張(multi-dilation)深度可分離卷積。 對於解碼器,使用雙線性插值作爲上採樣層方式。 它以W/4×H/4W / 4×H / 4分辨率執行L3L_3深度可分離卷積,並以W/2×H/2W / 2×H / 2分辨率執行L4L_4。 最後,以W×HW×H分辨率進行卷積以獲得2D語義分割預測結果。

本文參照MiniNetV2方法,在第二個卷積分支中提取細粒度信息,即高分辨率的底層特徵。 第二個分支的輸入是球面投影,具體細節在後文的Sect. IV-B部分指定。 作爲最後一步,必須將預測的2D語義分割再次重新投影回3D空間。 對於已經投影到球面表示中的點,這是一個簡單的步驟,因爲只需要分配在球面投影中預測的語義標籤即可。 但是,尚未投影到球面中的點(得到的2D座標可能對應不止一個3D點),他們沒有語義標籤。 對於這些點,分配了其相應2D座標的語義標籤。 此問題可能導致錯誤預測,因此需要執行後處理方法以完善結果。

C.後處理過程

爲應對非投影3D點的錯誤預測,本文遵循Milioto等人的後處理方法。 所有3D點都將基於KK近鄰(KNN)獲得新的語義標籤。 選擇K個最近點的標準不是基於相對的歐氏距離距離,而是基於相對深度值。 此外,基於點的二維球座標距離縮小搜索範圍。 Milioto等人方法的實現是基於GPU的,能夠在7ms內運行,從而保持較低的幀速率。

IV. 實驗部分

A.數據集

SemanticKITTI基準測試:

SemanticKITTI數據集是一個大規模數據集,爲整個KITTI里程錶基準測試提供了密集的逐點註釋。 數據集包含43000多次掃描,從中可使用21000多個掃描數據(序列00到10)進行訓練,其餘的(序列11到21)用作測試集。 數據集區分22種不同的語義類別,通過基準的官方在線平臺在測試集上評估了19種類別。 由於這是當前最相關,最大的單掃描3D LIDAR語義分割數據集,因此作者對該數據集進行了消融研究和更全面的評估。

KITTI基準:

SqueezeSeg的工作提供了從KITTI數據集的3D對象檢測挑戰中導出的語義分割標籤。 它是一箇中等大小的數據集,分爲8057個訓練數據和2791個驗證掃描。

B.設定

a)3D點近鄰搜索參數:

對於SemanticKITTI數據集,作者將球面投影的分辨率設置爲2048×64(注:2048是(360/水平分辨率),卷積網絡中圖像大小是2的次數,故設置爲2048,64爲激光器的數量,這裏是64路激光器,故圖像寬度爲64),同樣的對於KITTI,則將分辨率設置爲512×64(與以前的網絡相同,以便能夠進行合理的比較)。然後將4 x 4的窗口大小步幅設置爲4,這是保證分組之間恰好沒有交集。進行快速點近鄰搜索時不設置零填充導致,這樣對於SemanticKITTI數據的產生8192組3D點和KITTI數據上產生的2048組。我們的投影模塊將接收這些組作爲輸入,併爲SemanticKITTI配置生成學習的表示,分辨率爲512×16,對於KITTI生成分辨率爲128×16。

b)網絡參數:

完整的架構及其所有參數在圖3中進行了描述。這裏注意一下,作者實際提出了三種不同的配置來評估所提出的方法:3D-MiniNet,3D-MiniNet-small,3D-MiniNet-tiny。每種方法在(C3C4C5C6C3,C4,C5,C6)特徵層上對應不同的特徵數,分別爲:

  • (24、48、96、192)
  • (16、32、64、128)
  • (12、24、48、96)

三個配置在FCNN骨幹網絡的層(L1L2L3L4L1,L2,L3,L4)的設計分別對應:

  • (50、30、4、2)

  • (24、20、2、1)

  • (14 ,10、2、1)
    NcN_c是數據集的語義類別數。

c)後處理參數:

對於使用K近鄰方法的後處理方法,我們將2D分割時近鄰搜索的窗口大小設置爲7×7,並將KK值設爲7。

d)訓練過程:

epochs = 500, 針對3D-MiniNet, 3D-MiniNet-small, 3D-MiniNettiny ,batch_size分別設置爲 = 3, 6, 8

(由於內存限制而有所不同)。優化器使用隨機梯度下降(SGD),其初始學習率爲41034·10^{-3},每個epoch的衰減率爲0.99。使用交叉熵損失函數作爲模型損失的優化。

L=1Mm=1Mc=1C(ftfc)iyc,mln(y^c,m)\mathcal{L}=-\frac{1}{M} \sum_{m=1}^{M} \sum_{c=1}^{C}\left(\frac{f_{t}}{f_{c}}\right)^{i} y_{c, m} \ln \left(\hat{y}_{c, m}\right)

其中,M是點的標籤數量,C是類別數。yc,my_{c, m}是點m屬於某類c的二進制指示符(取值0或1), y^c,m\hat{y}_{c, m}是CNN預測的點m屬於某個類別c的概率。 該概率是通過將soft-max函數應用於網絡的輸出來計算得到的。 爲了解決類不平衡問題,作者使用了SegNet 中所用的中值頻率類平衡。 爲了平滑最終的類別權重,作者提出應用冪運算wc=(ftfc)iw_{c}=\left(\frac{f_{t}}{f_{c}}\right)^{i},其中fcf_{c}是類別c的頻率,而ftf_{t}是所有頻率的中值,作者將i設置爲0.25。

e)數據增強:

在訓練過程中,隨機旋轉和移動整個3D點雲。 作者將所有點雲的X和Z值的符號隨機反轉,並且還刪除了一些點。

V. 結果

A.投影模塊的消融研究

在這裏插入圖片描述
投影模塊是該論文的新穎之處。本節展示其中的每個部分如何幫助改善學習的表示形式。對於本實驗,作者只使用3D-MiniNet-small配置進行。消融研究的結果在表1中記錄,測量了每種設置所對應的的mIoU,速度和學習參數。第一行顯示了在學習層中僅使用1×N卷積以及在RangeNet中使用的5通道輸入(C1C_1)的性能,將其建立爲基線(即空間特徵提取器)。第二行顯示瞭如果將1×N卷積替換爲基於點的操作(即局部特徵提取器)的性能。結果表明,MLP操作對於3D點效果更好,但是需要更多的執行時間。第三行結合了卷積和本地MLP操作,結果表明卷積和MLP運算的結合可提高性能,作者認爲這是由於每種運算類型學習到的特徵類型不同。

注意力模塊幾乎無需額外的計算工作即可提高性能。它將特徵空間縮小爲指定數量的特徵,從而瞭解哪些特徵更爲重要。第五行顯示添加上下文特徵提取器的結果。稍後也通過卷積通過FCNN學習上下文,但是這裏,上下文特徵提取器通過MLP操作學習不同的上下文。背景信息通常在語義任務中非常有用,例如,用於區分騎自行車的人,騎自行車的人和摩托車的人。與顯示其相關性的其他特徵提取器相比,此上下文信息的提升更高。最後,使用相對於點組(C2C_2)的特徵來增加每個點的特徵數量,也將獲得更好的性能,且沒有計算時間和參數成本的增加。

B.基準結果

本節介紹了3D-MiniNet的定量和定性結果,並與其他相關工作進行了比較。
在這裏插入圖片描述
a)定量分析:

表II將本文的方法與幾種基於點的方法(第1-6行)和基於投影的方法(第7-12行)進行了比較。 測量每種方法的mIoU,處理速度(FPS)和所需參數的數量。 可以看到,基於點的LIDAR掃描語義分割方法比投影方法慢,很難繼續提升性能。 目前諸如Velodyne之類的LIDAR傳感器通常以5-20 FPS的速度工作。 因此,當前僅基於投影的方法能夠實時處理傳感器提供的全部數據量。

從3D-MiniNet的性能來看,它使用的參數減少了12倍,而速度提高了2倍,因此比以前的最新技術提高了近3%。 有趣的是,3DMiniNet-small可以更高效,更快地提供最新性能。 如果可以在效率與性能之間進行權衡,則較小版本的Mininet還將以較高的幀速率獲得更好的性能指標。 3D-MiniNet-tiny能夠以98 fps的速度運行,並且mIoU僅下降9%(與以90 fps的SqueezeSeg版本的29%相比,下降了46.9%),並且使用的參數更少(參閱3D-MiniNettiny與TangentConv )。
在這裏插入圖片描述
本文中應用的後處理方法顯示出其有效地改善分割結果。這一步對於正確處理球形投影中未包含的點至關重要。如表III所示,對KITTI數據集的掃描具有較低的分辨率(64x512)。 3D-MiniNet還在此數據集上獲得了LIDAR語義分割方面的最新技術。與SqueezeSeg版本(+ 10-20 mIoU)相比,我們的方法可獲得更好的性能。 3D-MiniNet也比LuNet具有更好的性能。請注意,在這種情況下,我們沒有評估KNN後處理,因爲KITTI數據集上僅提供2D標籤。

b)定性分析:

圖4顯示了對測試數據進行3D-MiniNet推斷的一些示例。由於沒有爲測試集提供測試依據(評估是在在線平臺上外部進行的),因此我們只能顯示視覺結果,而無需進行標籤比較。請注意,在汽車等相關類別中以及在交通標誌等具有挑戰性的類別中,我們的方法均獲得了高質量的結果。可以預見,最大的困難是區分在具有相似幾何形狀和結構(例如建築物和圍牆)的類之間進行切換。
在這裏插入圖片描述

VI. 結論

本文所提出的3D-MiniNet,是一種快速高效的3D LIDAR語義分割的方法。3D-MiniNet先將3D點雲投影到二維空間中,然後使用全卷積神經網絡學習語義分割。 與常規基於預定義的投影方法不同,3DMiniNet從原始3D點學習此投影,取得出非常出色結果。 消融研究部分也說明該方法的每個部分如何有助於表徵的學習。 3D-MiniNet也在SemanticKITTI和KITTI數據集上成爲新的SoTA,在實時性和準確性的要求上,都比以往的方法更有效。
1.3D-MiniNet 原文地址
2.3D-MiniNet Github地址

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章