論文閱讀 ESPNet: Efficient Spatial Pyramid of Dilated Convolutions for Semantic Segmentation

論文鏈接:https://arxiv.org/abs/1803.06815
論文代碼鏈接:https://github.com/sacmehta/ESPNet
Abstract
我們引入了一個快速有效的卷積神經網絡ESPNet,用於資源約束下的高分辨率圖像的語義分割。ESPNet基於一個新的卷積模塊,即高效的空間金字塔(ESP),它在計算,存儲和功率方面都很有效。目前最先進的語義分割網絡PSPNet,輕量化網絡有MobileNet、ShuffleNet、ENet等。

Introduction
ESP基於卷積分解原理,將標準卷積分解爲兩個步驟:(1)逐點卷積和(2)擴張卷積的空間金字塔,如圖1所示。逐點卷積減少通道數降低了參數量。擴張卷積的空間金字塔結構增加感受野對特徵圖進行採樣。擴張卷積的空間金字塔使用K,n×n擴張的卷積核同時重新採樣這些低維特徵圖,每個擴展率爲2k-1,k={1,…, K}。這種因式分解大大減少了ESP模塊所需的參數和存儲器數量,同時保留了一個大的有效接收場 [(n − 1)2(K−1) + 1]2。這種金字塔卷積運算被稱爲擴張卷積的空間金字塔,因爲每個膨脹卷積核都學習具有不同接收場的權重,因此類似於空間金字塔。
目前已經有多種技術用來加速卷積神經網絡,如卷積分解、網絡壓縮和低位網絡。

ESPNet
在這裏插入圖片描述
寬度分配器K:爲了降低計算成本,我們引入了一個簡單的超參數K。K的作用是在網絡中的每個ESP模塊上均勻地縮小特徵映射的維度。減少:對於給定的K,ESP模塊首先使用逐點卷積將特徵圖從M維空間縮減到K/N維空間(圖1a中的步驟1)

ESP的參數計算
(1)逐點卷積
parameters = 1x1xMxK/N
(2)擴張卷積的空間金字塔
parameters = nxnx(N/K)2xK
(3)總和
MK/N+(nN)2/K

標準卷積的參數量爲n2xMN

HFF
爲了解決由於引入dilated convolution帶來的網格效應,將不同dilation的特徵圖分層求和,然後再concatenate

ESPNet的變體
在這裏插入圖片描述
ESPNet-A
第一個變體ESPNet-A(圖4a)是一個標準網絡,它將RGB圖像作爲輸入,並使用ESP模塊學習不同空間級別的信息。
ESPNet-B
第二個變體ESPNet-B(圖4b)通過共享前一個跨步ESP模塊和之前的ESP模塊之間的特徵圖來改善ESPNet-A內部信息的流動。
ESPNet-C
第三種變體ESPNet-C(圖4c)強化了ESPNet-B內部的輸入圖像,以進一步改善信息流。
這三種變體產生的輸出的空間尺寸是輸入圖像的1/8。
ESPNet
第四種變體ESPNet(圖4d)在ESPNet-C中添加了一個輕量級解碼器(使用reduceupsample-merge原理構建),輸出與輸入圖像相同空間分辨率的分割掩模。

代碼中網絡結構也是完全按照d圖中ESPNet網絡結構搭建

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章