DAR-Net: Dynamic Aggregation Network for Semantic Scene Segmentation[Arxiv]

在這裏插入圖片描述[論文鏈接]
\qquad這篇文章中作者提出了一個支持動態特徵聚合的網絡DAR-NetDAR-Net的核心思想是生成一個自適應的pooling skeleton,這個結構既考慮了場景的複雜結構也結合了局部幾何特徵。skeleton提供可變的半局部感受野和權重,成爲了連接局部卷積特徵提取器和全局循環特徵聚合器的橋樑。
在這裏插入圖片描述
\qquadskeleton如上圖所示,我的理解所謂skeleton就是一些能夠反映點雲集合特徵的keypoint。
在這裏插入圖片描述
\qquad網絡的pipeline如上圖所示,首先根據點雲無監督、自適應地學習skeleton,使其合理分佈在點雲中。這個過程作用類似於從下圖的a到b(node個數應人爲指定)。
在這裏插入圖片描述
\qquad然後從點雲中學習局部的逐點特徵,編碼後的局部特徵被動態地聚合到骨架中,作爲信息抽象的中間尺度,得到node-wise的特徵。

\qquad定義PN={pi0<iN}P_N=\{p_i|0<i\leq N\}爲點雲,SM={sj0<jM}S_M=\{s_j|0<j\leq M\}爲pooling skeleton。FaggiF^{agg-i}爲pointwise特徵空間,FaggoF^{agg-o}爲node-wise特徵空間。Tj:0<TjNT_j:0<Tj\leq N爲屬於第jj個node的點的個數,用於控制node的感受野。全局干涉因子 gg

\qquad特徵的動態聚合就是將與每個node相關的點的特徵使用聚合函數整合到node上。 可以表示爲:
fjaggo=fjaggo(fi1jaggi,...,fiTjjaggi,g),0<itjN \begin{array}{c} f_{j}^{agg-o}=f_{j}^{agg-o}(f_{i_1^{j}}^{agg-i},...,f_{i_{T_j}^{j}}^{agg-i},g),0<i_t^j\leq N \end{array}
\qquad屬於每個node的點的索引可以通過構建每個點對node的k近鄰索引矩陣INN×KI\subset \mathbb{N}^{N\times K}來得到。I(i,k)I(i,k)表示點pip_i的第k個近鄰node。屬於node sjs_j的點的索引可以表示爲{itj}={iI(i,k)=sj}\{i_t^j\}=\{i|I(i,k)=s_j\}。特徵的聚合函數表示如下:
{fjaggo=j(fi1jaggi,...,fiTjjaggi)/gg=jitj/M=jTj/M \left\{ \begin{array}{l} f_{j}^{agg-o}=\sum_j(f_{i_1^{j}}^{agg-i},...,f_{i_{T_j}^{j}}^{agg-i})/g\\ g=\sum_j|{i_t^j}|/M=\sum_jT_j/M \end{array} \right.
\qquad在此基礎上,利用全局神經網絡對中間接受域獨立對應的節點特徵進行處理,可以有效地學習遠程知識。將全局整合的信息傳回點雲進行局部特徵連接和分層解碼。最後使用1×1的pointwise卷積生成語義預測結果。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章