Exploring Spatial Context for 3D Semantic Segmentation of Point Clouds[ICCV2017]

在這裏插入圖片描述[論文連接]
\qquadPointNet將輸入的點細分爲一個個塊(個人理解爲訓練模型時的一個個Batch)並且獨立的處理這些Block。在本文中,作者在PointNet的基礎上提出了兩種擴展模型,增大了模型在3D場景中的感受野,從而使模型可以處理更大尺度的空間場景。
在這裏插入圖片描述在這裏插入圖片描述
\qquad將點塊轉換爲multi-scale blocks和grid blocks,以獲得input-level的上下文。然後,將PointNet提取的塊級特徵依次輸入到合併單元(CU)或週期性合併單元(RCU)中,獲得輸出級上下文。
在這裏插入圖片描述
\qquadCU用於從輸入點雲學習global的特徵,並與點的特徵連接。
在這裏插入圖片描述
\qquad網絡的輸入是三個多尺度的Blocks,每一個Block都含有N個D維的點(不一定是3維的,除了座標信息外還有可能包括標準化後的座標以及點的RGB信息等)。通過一個類似PointNet的機制學習每一個Scale下的block的特徵(MLP->max-pooling)。然後將塊特徵(1 x 384)和輸入特徵進行連接,將連接後的特徵作爲一系列CU的輸入,網絡最後接一個MLP輸出每一個點在所有類別上的得分(N x M)。
\qquad 一開始,每個點只能得到它們各自的特徵,連接了塊特徵後,每個點還得到了其相鄰點的特徵,通過一系列CU後,這種共享特徵得到了反覆的加強。
在這裏插入圖片描述
\qquadRCU將來自空間鄰近塊的塊特徵序列作爲輸入,並返回更新後的塊特徵序列。RCU是通過GRU實現的。GRU具有學習遠程依賴性的能力,範圍可以是時間上的也可以是空間上的,GRU在看到塊特徵的全部輸入序列後纔會返回更新的塊特徵,GRU在其內部存儲器中保留有關場景的信息,並根據新的觀察結果進行更新,通過這種機制來整合和共享所有輸入的信息。
在這裏插入圖片描述
\qquadGB-RCU網絡的輸入是4個來自相鄰格網的blocks,每個blocks中都包含由N個D維的點。它通過一個共享權重的MLP和 max-pooling學習4個塊的特徵(4 x 1 x 64,區別於MS-CU),所有的塊特徵通過一個RCU共享各自的空間上下文,然後RCU返回更新後的塊特徵。更新後的塊特徵(1 x 64)和原始塊特徵(1 x 64)一起附加到輸入特徵(N x 64)。最後接一個MLP用於計算每一個點在各個類別上的得分(N x M)。
\qquad這篇文章裏RNN主要用於學習臨近點或block的上下文信息。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章