自動駕駛領域:一種實時高精度的城市道路場景語義分割方法

點擊上方“3D視覺工坊”,選擇“星標”

乾貨第一時間送達

論文下載:https://arxiv.org/pdf/2003.08736.pdf

簡介:

近年來,深度卷積神經網絡(DCNNs)在語義圖像分割方面表現出了優異的性能。然而,由於使用複雜的網絡架構,基於DCNN的語義分割方法往往存在計算複雜度高的問題。這極大地限制了在實時處理的真實場景中的應用。本文提出了一種基於實時高性能DCNN的城市街道場景語義分割方法,在準確性和速度之間取得了良好的平衡。首先使用一個具有空洞卷積和注意力機制的輕量級基線網絡(LBN-AA)作爲基線網絡,有效地獲取密集的feature map。利用不同規模的池化操作提取豐富而獨特的語義信息,開發了空間金字塔池化算法,實現了多尺度的目標檢測。同時,設計了具有淺層卷積層的空間細節保護網絡(SPN),生成高分辨率的保留空間細節信息的地形圖。最後,利用一種簡單實用的特徵融合網絡(FFN),分別對語義分支(DASPP)和空間分支(SPN)的深、淺特徵進行了有效的融合。實驗結果表明,在具有挑戰性的Cityscapes和CamVid測試數據集上(僅使用一張NVIDIA TITAN X卡),該方法在51.0 fps和39.3 fps的推理速度下,分別實現了73.6%和68.0%的mIoU的準確率。實驗結果表明,該方法對城市街道場景的語義分割具有較好的實時性。

本文主要貢獻如下:

採用了一個輕量級網絡,其改進的MobileNetV2具有Atrous convolution和Attention (LBN-AA),該算法只需較小的內存和少量的參數,可實現快速推理和較好的精度。DASPP利用不同大小的池化操作和每個像素的鄰近信息,得到的特徵更加豐富。分別採用SPN和FFN來進一步提高算法的精度,同時又不會造成很大的速度損失。SPN能夠準確地保留豐富的空間信息,彌補深層空間細節的缺失,而FFN則有效地結合了語義分支(DASPP)和空間分支(SPN)的深、淺特徵。

相關知識:

2D空洞卷積下不同的空洞率:

數據城市景觀數據集上具有挑戰性的多尺度變化的說明:從圖片中可以看出,同一類別的物體(如人或車)在尺度上有很大差異。

空間金字塔池ASPP:利用多個具有不同速率的並行分支來捕獲多尺度的上下文。

方法:

實時高性能語義分割方法由四個主要部分組成:帶孔卷積和注意力機制的輕量級基線網絡(LBN-AA)、DASPP、細節保留網絡(SPN)和特徵融合網絡(FFN)。如下圖所示。

(a)是提出的Atrous Convolution and Attention的輕量級基線網絡(LBN-AA)。(b)是獨特的空間金字塔池(DASPP)。(c)爲空間細節保護網絡(SPN)。(d)爲特徵融合網絡(FFN)。

可以看到在MobileNetV2採用帶孔卷積,特徵圖尺寸最小爲1/8,而不會丟失太多信息。

進一步在改進的MobileNetV2中添加了幾個卷積注意模塊(CAM)來選擇信息通道。利用CAM生成的權值來指導網絡學習,從而得到加權特徵圖。這種方法有利於突出重要信息,抑制不相關信息。

具體配置參數如圖所示:

CAM:通道注意力機制

CAM首先採用全局平均池化和1×1卷積,再採用批處理歸一化和LeakyReLU將輸出特徵的重要性編碼爲一個向量。注意,輸入通道的數量減少了1×1卷積操作,有效地提高了凸輪的效率。然後,全連通層和Sigmoid函數得到關注向量。最後,根據注意向量對特徵圖的不同通道進行加權。

由於只採樣非零值的位置,接受域覆蓋了棋盤格模式的區域,導致一些鄰近信息丟失(見上中的灰色網格)。因此,LBN-AA可以通過將這些塊的特徵圖連接起來,生成一個稠密的採樣圖,其中不同塊的相鄰信息可以進行互補。

獨特的空間金字塔池DASPP:

在並行的帶孔卷積分支中,分別採用池大小爲3×3、5×5和7×7。三個支路的3×3 帶孔卷積運算對應的atrous率分別爲12、24和36。將ASPP中原始的1×1卷積分支改爲1×1卷積和3×3卷積運算,有效地提高了特徵提取的能力。仍然採用圖像級池化層來捕獲全局上下文信息。如下圖所示:

空間細節保護網絡(SPN)

使用一個精簡版的ResNet-18前兩層爲SPN(詳見下表)。將LBN-AA中的layer1和block2的輸出連接起來作爲SPN的最終輸出。SPN最終輸出的feature map是原始輸入圖像大小的1/4,包含88個通道。雖然SPN得到的feature map分辨率較大,但計算代價較小(因爲壓縮版ResNet-18只使用了淺卷積層)。

特徵融合網絡(FFN)

首先將兩個分支的特徵圖沿通道連接起來。然後應用BN操作縮短特徵距離,平衡特徵尺度。兩個特徵圖相同位置的像素不一定相似,它們可能與該位置上相鄰的像素相似。採用size爲3×3,arous rate d = 2的帶孔卷積來融合特徵。該操作能夠有效地結合目標像素周圍相鄰像素的特徵信息,而不是僅僅依賴於一個位置。然後用大小爲1×1的投影卷積將輸出通道的數量減少到語義類別的數量(216個減少到19個-標籤的類別個數)。在帶孔卷積和投影卷積之間也使用了BN層。最後,利用簡單而高效的雙線性插值,直接將融合結果上採樣到原始輸入圖像的大小。雙線性插值只需要很少的參數,可以達到與轉置卷積相似的精度。

在Cityscapes數據及上獲取的結果如下圖:

與其他先進網絡的結果對比:

對於每個類的分類正確性比較:

在CmaVid數據集上的比較結果:

總結:

在本文中,提出了一種新的實時高性能語義分割方法,以實現在準確性和速度之間的平衡。該方法由四個主要部分組成:LBN-AA、DASPP、SPN和FFN。LBN-AA利用輕量化網絡、卷積、卷積關注模塊提取特徵,得到密集的特徵圖。DASPP增加了輸入特徵的多樣性,利用豐富的上下文信息有效地解決了語義分割的多尺度問題。SPN的設計是爲了保留豐富的空間信息,彌補細節的缺失。FFN負責融合高級和低級特性。這些組件通過緊密耦合和聯合優化來保證語義分割的有效性。在城市景觀和CamVid數據集上的定性和定量結果證明了該方法的有效性和效率。該方法中的一些模塊不僅可以用於實時語義分割,而且可以用於精確的語義分割。

本文僅做學術分享,如有侵權,請聯繫刪文。

推薦閱讀

重磅!3DCVer-學術論文寫作投稿 交流羣已成立

掃碼添加小助手微信,可申請加入3D視覺工坊-學術論文寫作與投稿 微信交流羣,旨在交流頂會、頂刊、SCI、EI等寫作與投稿事宜。

同時也可申請加入我們的細分方向交流羣,目前主要有3D視覺CV&深度學習SLAM三維重建點雲後處理自動駕駛、CV入門、三維測量、VR/AR、3D人臉識別、醫療影像、缺陷檢測、行人重識別、目標跟蹤、視覺產品落地、視覺競賽、車牌識別、硬件選型、學術交流、求職交流等微信羣,請掃描下面微信號加羣,備註:”研究方向+學校/公司+暱稱“,例如:”3D視覺 + 上海交大 + 靜靜“。請按照格式備註,否則不予通過。添加成功後會根據研究方向邀請進去相關微信羣。原創投稿也請聯繫。

▲長按加微信羣或投稿

▲長按關注公衆號

3D視覺從入門到精通知識星球:針對3D視覺領域的知識點彙總、入門進階學習路線、最新paper分享、疑問解答四個方面進行深耕,更有各類大廠的算法工程人員進行技術指導。與此同時,星球將聯合知名企業發佈3D視覺相關算法開發崗位以及項目對接信息,打造成集技術與就業爲一體的鐵桿粉絲聚集區,近1000+星球成員爲創造更好的AI世界共同進步,知識星球入口:

學習3D視覺核心技術,掃描查看介紹,3天內無條件退款

 圈裏有高質量教程資料、可答疑解惑、助你高效解決問題

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章