MeteorNet: Deep Learning on Dynamic 3D Point Cloud Sequences[ICCV2019 Oral]

在這裏插入圖片描述
[論文鏈接][代碼鏈接]

\qquad作者提出了一種新的方法學習表示動態三維點雲序列。方法的關鍵是一個稱爲MeteorNet的神經網絡模塊。該模塊以點雲序列爲對象,在時空鄰域中聚合信息,學習每個點的特徵。模塊可以堆疊在一起,將上一個模塊的每個點特性輸入到下一個模塊。層次化的模塊從較大的鄰居處獲取信息。特徵的聚合過程是通過對鄰域中的每個點使用相同的多層感知器(MLPs),然後使用最大池來實現的。
在這裏插入圖片描述
\qquad文章提出的模型直接使用原始點雲的動態序列,並學習全局和局部點特徵,可應用於分類、語義分割和場景流估計。
在這裏插入圖片描述
\qquadMeteorNet的網絡的結構如上圖所示,總共有兩種選擇,左邊的是Early fusion,右邊的是Late fusion。Early fusion在第一層使用Meteor模塊,使得不同幀的點從一開始就混合在一起,在後面的實驗部分中,MeteorNet-cls和MeteorNet-seg使用了Early fusion。Late fusion中在Meteor模塊將點混合之前,對每一幀中的點分別應用了幾個特徵學習層(例如pointnet++)。它允許模型捕獲更高級別的語義特性。在接下來的實驗中MeteorNet-flow採用了Late fusion。

\qquadMeteorNet網絡最重要的部分就是Meteor模塊,它以點雲序列S(S=(S1,S2,...ST)S=(S_1,S_2,...S_T),其中St={pi(t)i=1,2,...,nt}S_t=\{p_i^{(t)}\mid i=1,2,...,n_t\},點pi(t)p_i^{(t)}由它的歐幾里得座標表示xi(t)R3\mathbf{x}_i^{(t)}\in \mathbb{R}^3)爲輸入,對SS中的每一點pi(t)p_i^{(t)}生成更新的特徵向量h(pi(t))h(p_i^{(t)})。Meteor模塊模塊的第一步是在同一幀或鄰近幀中尋找pi(t)p_i^{(t)}的鄰近點,形成局部時空鄰域N(pi(t)N(p_i^{(t)}
在這裏插入圖片描述
\qquad作者給出了兩種更新特徵向量的函數,第一種(Meteor-rel)看重幀之間的對應關係,對於每個點對(pj(t),pi(t))(p_j^{(t')},p_i^{(t)}),將兩個點的特徵向量及其時空位置的差異傳遞到具有共享權值的MLP中,然後進行element-wise的max pooling。得到更新後的i(t))_i^{(t)})特徵:
在這裏插入圖片描述
\qquad第二種(Meteor-ind)更新特徵向量的函數是認爲幀與幀之間的對應關係並不重要(例如語義分割),我們將pj(t)p_j^{(t')}的特徵向量和pj(t)p_j^{(t')}pi(t)p_i^{(t)}之間的時空位置差異傳遞給MLP和一個max pooling層:
在這裏插入圖片描述
\qquad對一個點的時空交互範圍,論文提出瞭如下圖所示的兩種點的分組方式來得到:direct grouping和chained-flow grouping。
在這裏插入圖片描述
\qquaddirect grouping (a):一個物體能移動的最大距離隨着時間的增加而增加。因此,這種方法直接在三維空間中隨着tt|t-t'|的增大增加分組半徑。
\qquadchained-flow grouping (b):在現實動態點雲序列中,用一幀中的點表示的對象在相鄰幀中對應的點在空間上是相近的。在動態點雲序列中,一個點與時空鄰域內其他點的相互作用應遵循其運動方向。對於tt幀中的點pi(t)p_i^{(t)},首先利用已有的場景流估計方法估計一個流fi(t,t1)f_i^{(t,t-1)},則點pi(t)p_i^{(t)}t1t-1幀中的虛擬對應點pi(t1){p'}_i^{(t-1)}的座標爲 xi(t1)=xi(t)+fi(t,t1)\mathbf{x'}_i^{(t-1)}=\mathbf{x}_i^{(t)}+f_i^{(t,t-1)}

\qquad爲了得到pi(t)p_i^{(t)}t2t-2幀中的對應位置,首先估計t1t-1幀到t2t-2幀的流,虛擬點pi(t1){p'}_i^{(t-1)}的流fi(t1,t2){f'}_i^{(t-1,t-2)}由它在t1t-1幀中的k近鄰的流加權平均得到(具體細節詳見論文)。

\qquadpi(t)p_i^{(t)}t2t-2幀中的對應點座標爲xi(t2)=xi(t)+fi(t,t1)+fi(t1,t2)\mathbf{x'}_i^{(t-2)}=\mathbf{x}_i^{(t)}+f_i^{(t,t-1)}+{f'}_i^{(t-1,t-2)} ,如此反覆迭代便可以得到點pi(t)p_i^{(t)}在每一幀中的對應點。與direct grouping相比,chained-flow grouping側重於跟蹤每個點的運動軌跡和對應關係,使分組半徑更小,還可以提高計算效率。

\qquadMeteor模塊得到的特徵向量可以進一步處理:(1)得到到整個序列的一個信息,如分類分數(如分類的分數);(2)插值回每一個點的到每個點的信息,例如所有點的分類分數(例如語義分割);(3)特定幀中點的per-point信息(例如場景流估計)。作者將分類、語義分割和場景流估計的總體架構分別命名爲MeteorNet-cls、MeteorNet-seg和MeteorNet-flow。
在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章