論文閱讀 ESPNet: Efficient Spatial Pyramid of Dilated Convolutions for Semantic Segmentation

原創

2019-01-11 02:38

論文鏈接：https://arxiv.org/abs/1803.06815
論文代碼鏈接：https://github.com/sacmehta/ESPNet
Abstract
我們引入了一個快速有效的卷積神經網絡ESPNet，用於資源約束下的高分辨率圖像的語義分割。ESPNet基於一個新的卷積模塊，即高效的空間金字塔（ESP），它在計算，存儲和功率方面都很有效。目前最先進的語義分割網絡PSPNet，輕量化網絡有MobileNet、ShuffleNet、ENet等。

Introduction
ESP基於卷積分解原理，將標準卷積分解爲兩個步驟：（1）逐點卷積和（2）擴張卷積的空間金字塔，如圖1所示。逐點卷積減少通道數降低了參數量。擴張卷積的空間金字塔結構增加感受野對特徵圖進行採樣。擴張卷積的空間金字塔使用K，n×n擴張的卷積核同時重新採樣這些低維特徵圖，每個擴展率爲2k-1，k={1,…, K}。這種因式分解大大減少了ESP模塊所需的參數和存儲器數量，同時保留了一個大的有效接收場 [(n − 1)2^(K−1) + 1]²。這種金字塔卷積運算被稱爲擴張卷積的空間金字塔，因爲每個膨脹卷積核都學習具有不同接收場的權重，因此類似於空間金字塔。
目前已經有多種技術用來加速卷積神經網絡，如卷積分解、網絡壓縮和低位網絡。

ESPNet

寬度分配器K：爲了降低計算成本，我們引入了一個簡單的超參數K。K的作用是在網絡中的每個ESP模塊上均勻地縮小特徵映射的維度。減少：對於給定的K，ESP模塊首先使用逐點卷積將特徵圖從M維空間縮減到K/N維空間（圖1a中的步驟1）

ESP的參數計算
（1）逐點卷積
parameters = 1x1xMxK/N
（2）擴張卷積的空間金字塔
parameters = nxnx(N/K)²xK
（3）總和
MK/N+(nN)²/K

標準卷積的參數量爲n²xMN

HFF
爲了解決由於引入dilated convolution帶來的網格效應，將不同dilation的特徵圖分層求和，然後再concatenate

ESPNet的變體

ESPNet-A
第一個變體ESPNet-A（圖4a）是一個標準網絡，它將RGB圖像作爲輸入，並使用ESP模塊學習不同空間級別的信息。
ESPNet-B
第二個變體ESPNet-B（圖4b）通過共享前一個跨步ESP模塊和之前的ESP模塊之間的特徵圖來改善ESPNet-A內部信息的流動。
ESPNet-C
第三種變體ESPNet-C（圖4c）強化了ESPNet-B內部的輸入圖像，以進一步改善信息流。
這三種變體產生的輸出的空間尺寸是輸入圖像的1/8。
ESPNet
第四種變體ESPNet（圖4d）在ESPNet-C中添加了一個輕量級解碼器（使用reduceupsample-merge原理構建），輸出與輸入圖像相同空間分辨率的分割掩模。

代碼中網絡結構也是完全按照d圖中ESPNet網絡結構搭建

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

論文閱讀 ESPNet: Efficient Spatial Pyramid of Dilated Convolutions for Semantic Segmentation

如何使用 JS 判斷用戶是否處於活躍狀態

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

圖像中的Attention代碼（Tensorflow）

Pytorch model.train 與 model.eval的區別（我是搬運工）

YOLACT：Real-time Instance Segmentation總結

牛客網OJ系統Python輸入輸出處理

經典CNN網絡結構

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結