LiteSeg: A Novel Lightweight ConvNet for Semantic Segmentation
PDF: https://arxiv.org/pdf/1912.06683.pdf
PyTorch代碼: https://github.com/shanglianlm0525/PyTorch-Networks
LiteSeg模型,在Cityscapes數據集上針對640×360分辨率的圖像以每秒161幀的速度,達到了67.81%的mIoU精度。
1 概述
提出一個新的更深層的Atrous Spatial Pyramid Pooling module (ASPP),並應用了(Long and short residual connection)長短殘差連接以及(Depthwise Separable Convolution)深度可分離卷積,從而得到了一個更快、更有效的語義分割模型。
2 LiteSeg 網絡結構圖:
LiteSeg 主要基於Deeplab V3+修改而來,下面爲兩者的對比:
Deeplab V3+:
LiteSeg:
區別:
Encoder
- DASPP在ASPP的每個3 x 3卷積後面再加一個3 x 3的卷積,同時將所有3 x 3的核由256減少爲96;
- 通過 short residual connection融合DASPP的輸入和輸出;
Decoder
- 在原來的 3 × 3 卷積後面再添加一個3 × 3 卷積,同時將所有3 x 3的核由256減少爲96;
- 通過 long residual connection融合Backbone的第一階段輸出和Encoder輸出;
Pytorch代碼: