點擊下方“AI算法與圖像處理”,一起進步!
重磅乾貨,第一時間送達
在這篇被 ICCV 2021 會議接收的論文中,來自加拿大懷雅遜大學和約克大學等機構的研究者回答了 CV 領域的一個重要問題「若在前向傳遞中存在全局池化層,那麼 CNN 在表示中如何包含位置信息?」,表明具有全局平均
池化層的 CNN 以通道方式編碼位置信息。
神經網絡背後的基本思想是不變(invariance),給定一個輸入信號,X-invariant 作是指無論輸入如何改變,都會產生相同輸出。這種特性在 CV 領域是可取的,尤其是物體識別任務。
一般來說,在 CV 領域中,目標是分配相應的圖像級標籤(例如狗),而不論物體在圖像中的位置,這種現象被稱爲平移不變性。與平移不變密切相關的另一個特性是平移等變,即移動輸入,然後通過運算傳遞輸入,這等同於通過運算傳遞輸入,然後移動信號。
爲了實現具有不變的神經網絡,基本策略是在每一層的基礎上使用等變(equivariant )操作,然後以不變的輸出結束,其中一個最好的例子是用於圖像分類的卷積神經網絡(CNN)。CNN 採用具有平移等變卷積層的層次結構,使用全局池化層將 3D 張量轉換爲一維向量,然後將其輸入全連接層來產生分類。
因此,我們可以假設,由於進行了全局池化操作,對空間維度進行了摺疊,在產生平移不變性的同時應刪除空間信息。但是,以往的研究表明絕對位置信息不但存在於潛在表示中,也存在於網絡的輸出中。
但是,之前的一些研究都沒有回答這一關鍵問題:
若在前向傳遞中存在全局池化層,那麼 CNN 在表示中如何包含位置信息?
在本文中,來自加拿大懷雅遜大學、約克大學等機構的研究者給出了這個問題的答案,並通過嚴格的定量實驗證明,CNN 是通過沿着通道維度編碼位置信息來做到這一點的,即使空間維度是摺疊的也能實現。
此外,該研究還表明位置信息是基於通道維度的排序進行編碼的,而語義信息在很大程度上不受這種排序的影響。這些發現對於更好地理解 CNN 的特性並指導其未來設計很重要。
論文地址:https://arxiv.org/pdf/2108.07884.pdf
爲了證明這些發現對現實世界的影響,該研究做了以下研究:
首先,該研究解決了 CNN 平移不變性問題,他們提出了一個簡單而有效的損失函數,可以最小化圖像編碼之間的距離,以實現更高的平移不變性;
其次,該研究提出了一種有效的方法來識別潛在表示中哪些通道負責編碼(i)整個圖像中的位置信息和(ii)特定區域位置信息。該研究通過實驗表明與隨機採樣的通道相比,網絡在進行預測時顯着依賴於通道;
最後,該研究證明了它是可能的目標區域特定的神經元,並損害圖像的特定部分性能。
位置信息非常重要,有人可能會提出這樣的問題:空間信息是否以某種方式被保留了下來。對於這個問題,該研究通過實驗來回答。研究證明,儘管空間維度被壓縮,但絕對位置信息可以在全局池化層之後以 1 × 1 × C 潛在表示進行 channel-wise 編碼。
該研究設計了兩個網絡架構 GAPNet、PermuteNet,如下圖 1 所示。
GAPNet 遵循與標準 CNN 相似的結構進行物體識別,不同的是去掉了最後的全連接層,網絡的最後一層是 GAP 層。因此,GAP 層的輸出將與分類 logits 的大小相同,可以用作網絡的最後一層(見圖 1 左)。
PermuteNet 也遵循標準的目標分類網絡架構,除了在 GAP 層和倒數第二個線性層之間發生的單個 shuffle 操作。此操作隨機打亂 GAP 層表示的通道索引,然後將其傳遞給線性層進行分類(見圖 1 右)。
爲了驗證 channel-wise 位置編碼的存在性,該研究使用 GAPNet 和 PermuteNet 設計了一個簡單的位置依賴任務,這樣輸出 logits 可以直接映射到輸入圖像中的特定位置。
該研究使用 ResNet-18 架構來報告 GAPNet 和 PermuteNet 在三種不同 padding 類型下的實驗結果。對於位置分類任務,該研究以 20epoch、學習率爲 0.001、ADAM 優化器來訓練 GAPNet 、PermuteNet。
除此以外,該研究還通過將 GAPNet 和 PermuteNet 的輸出 logits 數量更改爲 10,並且使用基於網格的數據設置來訓練物體識別網絡。對於位置相關的物體分類任務,該研究使用 100 epoch、學習率爲 0.01 來訓練 GAPNet、PermuteNet。
表 1 給出了 GAPNet 和 PermuteNet 的位置分類和物體識別結果。對於位置分類任務,GAPNet 對所有測試的網格大小實現了 100% 準確率。很明顯,GAP 層可以接受位置信息,這些信息可以直接表示輸入圖像的絕對位置。
該研究進一步使用類似的數據設置來評估 GAPNet 和 PermuteNet 在圖像識別任務中的表現,結果如表 1(右)所示。由結果可得與位置分類任務不同,PermuteNet 可以實現接近於 GAPNet 的分類性能。這揭示了 CNN 用於位置表示和語義表示的編碼類型之間的一個有趣的二分法:位置信息主要取決於通道的順序,而語義信息則不依賴。
實驗表明,GAP 層可以通過通道維度的排序來接收位置信息。
爲了確保 channel-wise 編碼成爲改進這些應用的源泉,研究者在每種情況下都等待表示通過一個 GAP 層後使用它。他們首先提出利用一個簡單的損失函數來提升 CNN 中的平移不變性,然後探索目標檢測網絡的穩健性。研究者展示了使用隱式位置編碼攻擊這些模型的不同方法,以驗證整體性能和區域特定的攻擊效果。
首先是學習平移不變表示。一個真正的移位不變性網絡應能生成相同的輸出 logit,而不考慮它的移位。鑑於位置信息是在輸出 logit 之前的潛在表示中進行編碼,因此研究者提出在同一圖像不同移位之間這種表示的差異。整體訓練流程如下圖 2 所示:
其次是移位不變性和準確率。爲了驗證所提出訓練策略的有效性,研究者在 CIFAR-10、CIFAR-100 和 ImageNet 數據集上展示了整體性能和移位一致性結果。
其中,分類和一致性結果如下表 2 所示。與基準方法(ResNet-18)相比,研究者提出的方法在 CIFAR-10 上實現了具有競爭力的 Top-1 準確率,並在移位一致性方面顯著優於基準方法(94.8% VS 90.8%);在 CIFAR-100 上實現了媲美基準方法的整體分類準確率,並在移位一致性方面顯著優於基準方法(85.6% VS 70.1%)。
研究者的目標是證明:訓練用於語義分割等位置相關任務的複雜網絡非常依賴在它們的潛在表示中進行 channel-wise 編碼的位置信息。爲了執行這種類型的攻擊,他們首先提出使用一種簡單和直觀的方法來估計 CNN 潛在表示中的位置編碼神經元。
研究者表示,與隨機採樣的神經元相比,移除 CNN 潛在表示中的位置編碼神經元對性能會造成更大的損害。這表明,這些神經元中包含了重要的位置信息編碼。他們還展示了在訓練用於自動駕駛任務的網絡上執行區域特定攻擊的可行性。
這些結果表明,channel-wise 位置編碼存在於更復雜的網絡中,並揭示了基於位置信息的對抗性攻擊和防禦具有一個有趣的發展方向。
對於整體位置編碼通道而言,研究者的首個目標是識別出網絡潛在表示中的通道,這些通道對圖像中目標的整體位置進行編碼。
對編碼整體位置的神經元進行估計的簡單和直觀方法是計算水平翻轉圖像對的兩個潛在表示的激活函數之間的絕對差。
研究者首先驗證 top N 個整體位置編碼通道如何影響 Cityscapes 數據集上訓練的 SOTA 語義分割網絡 DeepLabv3-ResNet-50 的性能。
下圖 4 展示了當 top N 個整體位置特定通道設置爲零時,DeepLabv3-ResNet-50 在 Cityscapes 數據集上的語義分割結果(以 mIoU 表示)。
這些結果清楚地表明在進行準確的語義分割預測時,網絡對潛在表示中對通道級位置編碼的依賴。
下圖 5 展示了 Cityscapes 驗證圖像上移除 N 個特定神經元的的定性結果。很明顯,分割質量隨着 N 的增加而逐漸下降。
在語義分割任務上,研究者提出的證據表明,全卷積神經網絡可能會損害特定輸入區域的性能。
下圖 6 展示了驗證結果(以 mIoU 表示),其中在評估期間僅考慮圖像的左半部分,並且前 N 個通道設置爲零。
交流羣
歡迎加入公衆號讀者羣一起和同行交流,目前有美顏、三維視覺、計算攝影、檢測、分割、識別、醫學影像、GAN、算法競賽等微信羣
下載1:何愷明頂會分享
在「AI算法與圖像處理」公衆號後臺回覆:何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經典工作的總結分析
下載2:終身受益的編程指南:Google編程風格指南
在「AI算法與圖像處理」公衆號後臺回覆:c++,即可下載。歷經十年考驗,最權威的編程規範!
在「AI算法與圖像處理」公衆號後臺回覆:
CVPR
,即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文