注意力模型與三維點雲相結合的思考

人在看東西的時候,時刻關注的一定是當前正在看的這樣東西的某一部分。也即,當我們目光移到別處時,注意力會隨着目光移動而轉移。這意味着,人注意到某個目標或某個場景時,該目標內部以及該場景內每一處空間位置上的注意力分佈是不一樣的。
注意力模型本質上是對目標數據進行加權變化。注意力模型的結構受到視覺注意力發展的啓發,已成爲神經網絡中的一種重要概念並在很多應用領域展開了研究。[1]嘗試了注意力機制在三維點雲領域的應用。使用注意力模型的目的是從點雲中識別出信息量最大的點,將它們的特徵用於網絡預測決策。注意力模型的結構構建在自下而上/自上而下的前饋網絡結構中,注意力模型可以用於圖1編碼器-解碼器框架。對於圖像,自下而上的前饋過程收集圖像的全局信息,而自上而下的過程將全局和本地信息與跳過連接相結合。在以點云爲輸入的網絡中,信息點的特徵是在自下而上的步驟中學習的。然後,這些學習的特徵將添加到自上而下的步驟中的點。來自注意力模型的輸出特徵圖被用作注意力掩模。
在這裏插入圖片描述

圖1 編碼器-解碼器框架
在自下而上的過程中,編碼器提取N / 2個點的特徵,其中N是輸入點的數量。然後通過卷積層將這些點投影到新的空間上。迭代地繼續該過程,直到點數減少到N / 8點。在自上而下的過程中,使用解碼器將點插值到解碼器提取特徵的點的位置。然後使用跳過連接編碼器的對應特徵,完成特徵融合。最後將解碼器的輸出饋入兩個卷積層,然後使用sigmoid函數將注意力權重標準化爲[0,1]範圍,最後得到注意力掩模。注意力掩碼與網絡結構中提取得到的特徵圖逐元素相乘,放大更具信息的元素。加權的點特徵定義爲W爲:

在這裏插入圖片描述
其中,i的範圍是N,j是通道的標籤。 A (P)表示注意力掩碼, G(P)表示點特徵圖。
從注意力的作用角度出發,我們就可以從兩個角度來分類:1)種類:空間注意力和時間注意力;2)分爲Soft Attention和Hard Attention。Soft Attention是所有的數據都會注意,都會計算出相應的注意力權值,不會設置篩選條件。Hard Attention會在生成注意力權重後篩選掉一部分不符合條件的注意力,讓它的注意力權值爲0,即可以理解爲不再注意這些不符合條件的部分。以上舉例的方式爲空間注意力的Soft Attention,對標準卷積的關於空間點雲的特徵使用注意力掩碼加權。標準卷積的權重是由每個點鄰居的空間位置確定,經過注意力模塊加權的卷積網絡會屏蔽點雲交界處的其他類別,從而着重於該點本身。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章