作者提出了一種新的方法學習表示動態三維點雲序列。方法的關鍵是一個稱爲MeteorNet的神經網絡模塊。該模塊以點雲序列爲對象,在時空鄰域中聚合信息,學習每個點的特徵。模塊可以堆疊在一起,將上一個模塊的每個點特性輸入到下一個模塊。層次化的模塊從較大的鄰居處獲取信息。特徵的聚合過程是通過對鄰域中的每個點使用相同的多層感知器(MLPs),然後使用最大池來實現的。
文章提出的模型直接使用原始點雲的動態序列,並學習全局和局部點特徵,可應用於分類、語義分割和場景流估計。
MeteorNet的網絡的結構如上圖所示,總共有兩種選擇,左邊的是Early fusion,右邊的是Late fusion。Early fusion在第一層使用Meteor模塊,使得不同幀的點從一開始就混合在一起,在後面的實驗部分中,MeteorNet-cls和MeteorNet-seg使用了Early fusion。Late fusion中在Meteor模塊將點混合之前,對每一幀中的點分別應用了幾個特徵學習層(例如pointnet++)。它允許模型捕獲更高級別的語義特性。在接下來的實驗中MeteorNet-flow採用了Late fusion。
MeteorNet網絡最重要的部分就是Meteor模塊,它以點雲序列S(,其中,點由它的歐幾里得座標表示)爲輸入,對中的每一點生成更新的特徵向量。Meteor模塊模塊的第一步是在同一幀或鄰近幀中尋找的鄰近點,形成局部時空鄰域。
作者給出了兩種更新特徵向量的函數,第一種(Meteor-rel)看重幀之間的對應關係,對於每個點對,將兩個點的特徵向量及其時空位置的差異傳遞到具有共享權值的MLP中,然後進行element-wise的max pooling。得到更新後的特徵:
第二種(Meteor-ind)更新特徵向量的函數是認爲幀與幀之間的對應關係並不重要(例如語義分割),我們將的特徵向量和和之間的時空位置差異傳遞給MLP和一個max pooling層:
對一個點的時空交互範圍,論文提出瞭如下圖所示的兩種點的分組方式來得到:direct grouping和chained-flow grouping。
direct grouping (a):一個物體能移動的最大距離隨着時間的增加而增加。因此,這種方法直接在三維空間中隨着的增大增加分組半徑。
chained-flow grouping (b):在現實動態點雲序列中,用一幀中的點表示的對象在相鄰幀中對應的點在空間上是相近的。在動態點雲序列中,一個點與時空鄰域內其他點的相互作用應遵循其運動方向。對於幀中的點,首先利用已有的場景流估計方法估計一個流,則點 在幀中的虛擬對應點的座標爲 。
爲了得到在幀中的對應位置,首先估計幀到幀的流,虛擬點的流由它在幀中的k近鄰的流加權平均得到(具體細節詳見論文)。
則在幀中的對應點座標爲 ,如此反覆迭代便可以得到點在每一幀中的對應點。與direct grouping相比,chained-flow grouping側重於跟蹤每個點的運動軌跡和對應關係,使分組半徑更小,還可以提高計算效率。
Meteor模塊得到的特徵向量可以進一步處理:(1)得到到整個序列的一個信息,如分類分數(如分類的分數);(2)插值回每一個點的到每個點的信息,例如所有點的分類分數(例如語義分割);(3)特定幀中點的per-point信息(例如場景流估計)。作者將分類、語義分割和場景流估計的總體架構分別命名爲MeteorNet-cls、MeteorNet-seg和MeteorNet-flow。