3D Recurrent Neural Networks with Context Fusion for Point Cloud Semantic Segmentation[ECCV2018]

原創

2020-07-04 07:23

[論文鏈接]
$\qquad$ 本文主要有兩個創新點，首先利用逐點金字塔池化來捕獲不同尺度的局部上下文信息，然後利用兩個方向上的層級順序循環神經網絡來融合更大範圍的上下文信息。算法在室內室外3D點雲數據集上均取得了較好的效果。
$\qquad$ 網絡首先學習逐點的特徵，然後使用逐點的金字塔池化獲取不同尺度的上下文信息，將不同尺度的局部信息與點的特徵拼接。

$\qquad$ 關於金字塔池化，首先將3D空間按照地平面分爲 $1.5m \times 1.5m$ 的塊，每個塊包含整個房間的高度。進行Pointwise Pyramid Pooling時把每個塊分爲更小的立方體，在不同尺度下，採用具有相應池化窗口大小的單步maxpooling模塊。例如，如果窗口大小爲N，則在相應的長方體內隨機選取N個點，實現最大池化。3P池化可以表示爲：
$P(p_1,p_2,...,p_N)=[{\underset {p=p_1,...,p_N}{maxpool}}(f,k_1),...,{\underset {p=p_1,...,p_N}{maxpool}}(f,k_m)]$
$\qquad$ 得到的特徵被整合起來用於後面的RNN階段。
$\qquad$ 在RNN模塊中，分別從x和y兩個方向對序列特徵進行學習（也可以堆疊更多循環層來處理額外的方向，考慮到內存和速度，只選擇提到的兩個方向）。在之前的步驟中按照地平面將空間分爲了 $1.5m\times 1.5m$ 的塊，首先是從x軸方向進行序列特徵學習，具有相同y軸索引的塊可以構成一個序列（如上圖中的綠 $\rightarrow$ 藍 $\rightarrow$ 紫），在這一步中對所有y軸索引對應的不同序列進行學習。完成後將更新的塊的特徵填回原來的空間，按照y軸方向進行相同的操作。
$\qquad$ 在RNN模塊中結合局部和遠程的空間背景知識得到更新後的特徵，然後基於RNN模型的輸出特徵與原始輸入特徵(包括點態特徵和局部合併特徵)連接起來，以預測每個點的最終標籤。