點擊上方“3D視覺工坊”,選擇“星標”
乾貨第一時間送達
論文下載:https://arxiv.org/pdf/2003.08736.pdf
簡介:
近年來,深度卷積神經網絡(DCNNs)在語義圖像分割方面表現出了優異的性能。然而,由於使用複雜的網絡架構,基於DCNN的語義分割方法往往存在計算複雜度高的問題。這極大地限制了在實時處理的真實場景中的應用。本文提出了一種基於實時高性能DCNN的城市街道場景語義分割方法,在準確性和速度之間取得了良好的平衡。首先使用一個具有空洞卷積和注意力機制的輕量級基線網絡(LBN-AA)作爲基線網絡,有效地獲取密集的feature map。利用不同規模的池化操作提取豐富而獨特的語義信息,開發了空間金字塔池化算法,實現了多尺度的目標檢測。同時,設計了具有淺層卷積層的空間細節保護網絡(SPN),生成高分辨率的保留空間細節信息的地形圖。最後,利用一種簡單實用的特徵融合網絡(FFN),分別對語義分支(DASPP)和空間分支(SPN)的深、淺特徵進行了有效的融合。實驗結果表明,在具有挑戰性的Cityscapes和CamVid測試數據集上(僅使用一張NVIDIA TITAN X卡),該方法在51.0 fps和39.3 fps的推理速度下,分別實現了73.6%和68.0%的mIoU的準確率。實驗結果表明,該方法對城市街道場景的語義分割具有較好的實時性。
本文主要貢獻如下:
採用了一個輕量級網絡,其改進的MobileNetV2具有Atrous convolution和Attention (LBN-AA),該算法只需較小的內存和少量的參數,可實現快速推理和較好的精度。DASPP利用不同大小的池化操作和每個像素的鄰近信息,得到的特徵更加豐富。分別採用SPN和FFN來進一步提高算法的精度,同時又不會造成很大的速度損失。SPN能夠準確地保留豐富的空間信息,彌補深層空間細節的缺失,而FFN則有效地結合了語義分支(DASPP)和空間分支(SPN)的深、淺特徵。
相關知識:
2D空洞卷積下不同的空洞率:
數據城市景觀數據集上具有挑戰性的多尺度變化的說明:從圖片中可以看出,同一類別的物體(如人或車)在尺度上有很大差異。
空間金字塔池ASPP:利用多個具有不同速率的並行分支來捕獲多尺度的上下文。
方法:
實時高性能語義分割方法由四個主要部分組成:帶孔卷積和注意力機制的輕量級基線網絡(LBN-AA)、DASPP、細節保留網絡(SPN)和特徵融合網絡(FFN)。如下圖所示。
(a)是提出的Atrous Convolution and Attention的輕量級基線網絡(LBN-AA)。(b)是獨特的空間金字塔池(DASPP)。(c)爲空間細節保護網絡(SPN)。(d)爲特徵融合網絡(FFN)。
可以看到在MobileNetV2採用帶孔卷積,特徵圖尺寸最小爲1/8,而不會丟失太多信息。
進一步在改進的MobileNetV2中添加了幾個卷積注意模塊(CAM)來選擇信息通道。利用CAM生成的權值來指導網絡學習,從而得到加權特徵圖。這種方法有利於突出重要信息,抑制不相關信息。
具體配置參數如圖所示:
CAM:通道注意力機制
CAM首先採用全局平均池化和1×1卷積,再採用批處理歸一化和LeakyReLU將輸出特徵的重要性編碼爲一個向量。注意,輸入通道的數量減少了1×1卷積操作,有效地提高了凸輪的效率。然後,全連通層和Sigmoid函數得到關注向量。最後,根據注意向量對特徵圖的不同通道進行加權。
由於只採樣非零值的位置,接受域覆蓋了棋盤格模式的區域,導致一些鄰近信息丟失(見上中的灰色網格)。因此,LBN-AA可以通過將這些塊的特徵圖連接起來,生成一個稠密的採樣圖,其中不同塊的相鄰信息可以進行互補。
獨特的空間金字塔池DASPP:
在並行的帶孔卷積分支中,分別採用池大小爲3×3、5×5和7×7。三個支路的3×3 帶孔卷積運算對應的atrous率分別爲12、24和36。將ASPP中原始的1×1卷積分支改爲1×1卷積和3×3卷積運算,有效地提高了特徵提取的能力。仍然採用圖像級池化層來捕獲全局上下文信息。如下圖所示:
空間細節保護網絡(SPN)
使用一個精簡版的ResNet-18前兩層爲SPN(詳見下表)。將LBN-AA中的layer1和block2的輸出連接起來作爲SPN的最終輸出。SPN最終輸出的feature map是原始輸入圖像大小的1/4,包含88個通道。雖然SPN得到的feature map分辨率較大,但計算代價較小(因爲壓縮版ResNet-18只使用了淺卷積層)。
特徵融合網絡(FFN)
首先將兩個分支的特徵圖沿通道連接起來。然後應用BN操作縮短特徵距離,平衡特徵尺度。兩個特徵圖相同位置的像素不一定相似,它們可能與該位置上相鄰的像素相似。採用size爲3×3,arous rate d = 2的帶孔卷積來融合特徵。該操作能夠有效地結合目標像素周圍相鄰像素的特徵信息,而不是僅僅依賴於一個位置。然後用大小爲1×1的投影卷積將輸出通道的數量減少到語義類別的數量(216個減少到19個-標籤的類別個數)。在帶孔卷積和投影卷積之間也使用了BN層。最後,利用簡單而高效的雙線性插值,直接將融合結果上採樣到原始輸入圖像的大小。雙線性插值只需要很少的參數,可以達到與轉置卷積相似的精度。
在Cityscapes數據及上獲取的結果如下圖:
與其他先進網絡的結果對比:
對於每個類的分類正確性比較:
在CmaVid數據集上的比較結果:
總結:
在本文中,提出了一種新的實時高性能語義分割方法,以實現在準確性和速度之間的平衡。該方法由四個主要部分組成:LBN-AA、DASPP、SPN和FFN。LBN-AA利用輕量化網絡、卷積、卷積關注模塊提取特徵,得到密集的特徵圖。DASPP增加了輸入特徵的多樣性,利用豐富的上下文信息有效地解決了語義分割的多尺度問題。SPN的設計是爲了保留豐富的空間信息,彌補細節的缺失。FFN負責融合高級和低級特性。這些組件通過緊密耦合和聯合優化來保證語義分割的有效性。在城市景觀和CamVid數據集上的定性和定量結果證明了該方法的有效性和效率。該方法中的一些模塊不僅可以用於實時語義分割,而且可以用於精確的語義分割。
本文僅做學術分享,如有侵權,請聯繫刪文。
推薦閱讀: