MeteorNet: Deep Learning on Dynamic 3D Point Cloud Sequences[ICCV2019 Oral]

[論文鏈接] ｜ [代碼鏈接]

$\qquad$ 作者提出了一種新的方法學習表示動態三維點雲序列。方法的關鍵是一個稱爲MeteorNet的神經網絡模塊。該模塊以點雲序列爲對象，在時空鄰域中聚合信息，學習每個點的特徵。模塊可以堆疊在一起，將上一個模塊的每個點特性輸入到下一個模塊。層次化的模塊從較大的鄰居處獲取信息。特徵的聚合過程是通過對鄰域中的每個點使用相同的多層感知器(MLPs)，然後使用最大池來實現的。

$\qquad$ 文章提出的模型直接使用原始點雲的動態序列，並學習全局和局部點特徵，可應用於分類、語義分割和場景流估計。

$\qquad$ MeteorNet的網絡的結構如上圖所示，總共有兩種選擇，左邊的是Early fusion，右邊的是Late fusion。Early fusion在第一層使用Meteor模塊，使得不同幀的點從一開始就混合在一起，在後面的實驗部分中，MeteorNet-cls和MeteorNet-seg使用了Early fusion。Late fusion中在Meteor模塊將點混合之前，對每一幀中的點分別應用了幾個特徵學習層(例如pointnet++)。它允許模型捕獲更高級別的語義特性。在接下來的實驗中MeteorNet-flow採用了Late fusion。

$\qquad$ MeteorNet網絡最重要的部分就是Meteor模塊，它以點雲序列S（ $S=(S_1,S_2,...S_T)$ ，其中 $S_t=\{p_i^{(t)}\mid i=1,2,...,n_t\}$ ，點 $p_i^{(t)}$ 由它的歐幾里得座標表示 $\mathbf{x}_i^{(t)}\in \mathbb{R}^3$ ）爲輸入，對 $S$ 中的每一點 $p_i^{(t)}$ 生成更新的特徵向量 $h(p_i^{(t)})$ 。Meteor模塊模塊的第一步是在同一幀或鄰近幀中尋找 $p_i^{(t)}$ 的鄰近點，形成局部時空鄰域 $N(p_i^{(t)}$ 。

$\qquad$ 作者給出了兩種更新特徵向量的函數，第一種（Meteor-rel）看重幀之間的對應關係，對於每個點對 $(p_j^{(t')},p_i^{(t)})$ ，將兩個點的特徵向量及其時空位置的差異傳遞到具有共享權值的MLP中，然後進行element-wise的max pooling。得到更新後的 $_i^{(t)})$ 特徵：

$\qquad$ 第二種（Meteor-ind）更新特徵向量的函數是認爲幀與幀之間的對應關係並不重要(例如語義分割)，我們將 $p_j^{(t')}$ 的特徵向量和 $p_j^{(t')}$ 和 $p_i^{(t)}$ 之間的時空位置差異傳遞給MLP和一個max pooling層：

$\qquad$ 對一個點的時空交互範圍，論文提出瞭如下圖所示的兩種點的分組方式來得到：direct grouping和chained-flow grouping。

$\qquad$ direct grouping (a)：一個物體能移動的最大距離隨着時間的增加而增加。因此，這種方法直接在三維空間中隨着 $|t-t'|$ 的增大增加分組半徑。
$\qquad$ chained-flow grouping (b)：在現實動態點雲序列中，用一幀中的點表示的對象在相鄰幀中對應的點在空間上是相近的。在動態點雲序列中，一個點與時空鄰域內其他點的相互作用應遵循其運動方向。對於 $t$ 幀中的點 $p_i^{(t)}$ ，首先利用已有的場景流估計方法估計一個流 $f_i^{(t,t-1)}$ ，則點 $p_i^{(t)}$ 在 $t-1$ 幀中的虛擬對應點 ${p'}_i^{(t-1)}$ 的座標爲 $\mathbf{x'}_i^{(t-1)}=\mathbf{x}_i^{(t)}+f_i^{(t,t-1)}$ 。

$\qquad$ 爲了得到 $p_i^{(t)}$ 在 $t-2$ 幀中的對應位置，首先估計 $t-1$ 幀到 $t-2$ 幀的流，虛擬點 ${p'}_i^{(t-1)}$ 的流 ${f'}_i^{(t-1,t-2)}$ 由它在 $t-1$ 幀中的k近鄰的流加權平均得到（具體細節詳見論文）。

$\qquad$ 則 $p_i^{(t)}$ 在 $t-2$ 幀中的對應點座標爲 $\mathbf{x'}_i^{(t-2)}=\mathbf{x}_i^{(t)}+f_i^{(t,t-1)}+{f'}_i^{(t-1,t-2)}$ ，如此反覆迭代便可以得到點 $p_i^{(t)}$ 在每一幀中的對應點。與direct grouping相比，chained-flow grouping側重於跟蹤每個點的運動軌跡和對應關係，使分組半徑更小，還可以提高計算效率。

$\qquad$ Meteor模塊得到的特徵向量可以進一步處理：（1）得到到整個序列的一個信息，如分類分數（如分類的分數）；（2）插值回每一個點的到每個點的信息，例如所有點的分類分數(例如語義分割)；（3）特定幀中點的per-point信息(例如場景流估計)。作者將分類、語義分割和場景流估計的總體架構分別命名爲MeteorNet-cls、MeteorNet-seg和MeteorNet-flow。