Depth-aware CNN

摘要:

  • 通過利用CNN內核處理空間信息的本質,深度圖像中的幾何體能夠無縫地集成到CNN中。
  • depth-aware CNN不向傳統CNN中引入任何參數和計算複雜性。
  • depth-aware convolution和depth-ware average pooling可以以最小的成本取代傳統CNN中的標準卷積和池化。

depth-aware convolution 中信息傳播的插圖
depth-aware convolution 中信息傳播的插圖

如圖,Input Feature的濾波器窗口大小爲3×3。在圖中所示的深度相似性中,較暗的顏色表示較高的相似性,而較淺的顏色表示兩個像素的深度較不相似。在(a)中,Depth-aware Convolution的輸出激活是深度相似性窗口和輸入特徵映射上的卷積窗口的乘法。與卷積中心具有相似深度的像素將在卷積期間對輸出產生更大的影響。類似地,在(b)中,Depth-aware Average Pooling合併的輸出是由深度相似性加權的輸入窗口的平均值。

Depth-aware Convolution

標準2D卷積運算是局部網格的加權和。
在這裏插入圖片描述
其中R是x中p0周圍的局部網格,w是卷積內核。R可以是普通卷積核和膨脹卷積定義的規則網格,也可以是非規則網格。
在這裏插入圖片描述

如圖,A和C同屬於Table,B屬於Chair,它們在RGB圖像中都具有相似的視覺特徵,而它們在深度上是可分離的。Depth-aware CNN在卷積和池化時包含像素間的幾何關係。 當A是濾波器窗口的中心時,C對輸出單元的貢獻大於B。
爲了利用像素之間的深度相關性,Depth-aware Convolution簡單地添加深度相似性項,從而在卷積中產生兩組權重:
1) 學得的卷積核ww
2) 兩個像素之間的深度相似度FDF_D
因此,公式(1)可以寫成如下方式:
在這裏插入圖片描述
FDF_D的形式:
在這裏插入圖片描述
aa是一個常量,FDF_D的選擇基於直覺,即具有相似深度的像素應該彼此具有更大的影響.
注意:FDF_D部分在反向傳播期間不需要梯度,因此公式(2)並沒有通過相似性項引入任何參數。

正如圖一(a)所示,與卷積中心具有相似深度的像素將在卷積期間對輸出產生更大的影響。

Depth-aware Average Pooling

傳統的average pooling計算網格R相對於x的平均值。 它被定義爲

對於每個像素位置p0,Depth-aware Average Pooling操作然後變爲

反向傳播過程中,梯度應該乘上 ,正如圖一(b)所示,這種操作避免了標準池化的固定幾何結構。

RGB-D Semantic Segmentation Result

在這裏插入圖片描述

NYUv2
在這裏插入圖片描述

SUN-RGBD
在這裏插入圖片描述
在這裏插入圖片描述

性能分析

在這裏插入圖片描述
爲了更好地理解Depth-aware CNN如何優於baseline,我們可視化圖6(a)中每個語義類的IoU改進。 統計表明,D-CNN在大多數物體類別上都優於baseline,特別是天花板和窗簾等大型物體。 此外,我們觀察到深度感知的CNN具有比baseline更快的收斂,尤其是從頭開始訓練。 圖6(b)顯示了訓練步驟的訓練損失演變。 我們的網絡損失值低於baseline。 深度相似性有助於保留邊緣細節,然而,當深度值在單個對象中變化時,深度感知的CNN可能丟失上下文信息。 一些失敗案例可以在補充材料中找到。

模型複雜性和運行時分析

在這裏插入圖片描述
表11報告了D-CNN的模型複雜性和運行時間以及最先進的方法[27]。 在他們的方法中,kNN至少需要O(kN)運行時間,其中N是像素的數量。 我們利用原始深度輸入的網格結構。 如表11所示,深度感知操作不包含任何新參數。 網絡前進時間僅略大於其基線。 在不增加任何模型參數的情況下,D-CNN能夠有效地將幾何信息合併到CNN中。

總結

通過兩個操作引出了Depth-aware CNN:Depth-aware Convolution和Depth-aware Average Pooling(在深度圖上算一個深度相似性,把深度相似性作爲一個權重)FDF_D。在不引入任何參數和計算複雜性的情況下,該方法能夠大幅提高基線上RGB-D分割的性能。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章