自動駕駛領域：一種實時高精度的城市道路場景語義分割方法

點擊上方“3D視覺工坊”，選擇“星標”

乾貨第一時間送達

論文下載：https://arxiv.org/pdf/2003.08736.pdf

簡介：

近年來，深度卷積神經網絡(DCNNs)在語義圖像分割方面表現出了優異的性能。然而，由於使用複雜的網絡架構，基於DCNN的語義分割方法往往存在計算複雜度高的問題。這極大地限制了在實時處理的真實場景中的應用。本文提出了一種基於實時高性能DCNN的城市街道場景語義分割方法，在準確性和速度之間取得了良好的平衡。首先使用一個具有空洞卷積和注意力機制的輕量級基線網絡(LBN-AA)作爲基線網絡，有效地獲取密集的feature map。利用不同規模的池化操作提取豐富而獨特的語義信息，開發了空間金字塔池化算法，實現了多尺度的目標檢測。同時，設計了具有淺層卷積層的空間細節保護網絡(SPN)，生成高分辨率的保留空間細節信息的地形圖。最後，利用一種簡單實用的特徵融合網絡(FFN)，分別對語義分支(DASPP)和空間分支(SPN)的深、淺特徵進行了有效的融合。實驗結果表明，在具有挑戰性的Cityscapes和CamVid測試數據集上(僅使用一張NVIDIA TITAN X卡)，該方法在51.0 fps和39.3 fps的推理速度下，分別實現了73.6%和68.0%的mIoU的準確率。實驗結果表明，該方法對城市街道場景的語義分割具有較好的實時性。

本文主要貢獻如下:

採用了一個輕量級網絡，其改進的MobileNetV2具有Atrous convolution和Attention (LBN-AA)，該算法只需較小的內存和少量的參數，可實現快速推理和較好的精度。DASPP利用不同大小的池化操作和每個像素的鄰近信息，得到的特徵更加豐富。分別採用SPN和FFN來進一步提高算法的精度，同時又不會造成很大的速度損失。SPN能夠準確地保留豐富的空間信息，彌補深層空間細節的缺失，而FFN則有效地結合了語義分支(DASPP)和空間分支(SPN)的深、淺特徵。

相關知識：

2D空洞卷積下不同的空洞率：

數據城市景觀數據集上具有挑戰性的多尺度變化的說明：從圖片中可以看出，同一類別的物體(如人或車)在尺度上有很大差異。

空間金字塔池ASPP：利用多個具有不同速率的並行分支來捕獲多尺度的上下文。

方法：

實時高性能語義分割方法由四個主要部分組成：帶孔卷積和注意力機制的輕量級基線網絡(LBN-AA)、DASPP、細節保留網絡(SPN)和特徵融合網絡(FFN)。如下圖所示。

（a）是提出的Atrous Convolution and Attention的輕量級基線網絡(LBN-AA)。(b)是獨特的空間金字塔池(DASPP)。(c)爲空間細節保護網絡(SPN)。(d)爲特徵融合網絡(FFN)。

可以看到在MobileNetV2採用帶孔卷積，特徵圖尺寸最小爲1/8，而不會丟失太多信息。

進一步在改進的MobileNetV2中添加了幾個卷積注意模塊(CAM)來選擇信息通道。利用CAM生成的權值來指導網絡學習，從而得到加權特徵圖。這種方法有利於突出重要信息，抑制不相關信息。

具體配置參數如圖所示：

CAM：通道注意力機制

CAM首先採用全局平均池化和1×1卷積，再採用批處理歸一化和LeakyReLU將輸出特徵的重要性編碼爲一個向量。注意，輸入通道的數量減少了1×1卷積操作，有效地提高了凸輪的效率。然後，全連通層和Sigmoid函數得到關注向量。最後，根據注意向量對特徵圖的不同通道進行加權。

由於只採樣非零值的位置，接受域覆蓋了棋盤格模式的區域，導致一些鄰近信息丟失(見上中的灰色網格)。因此，LBN-AA可以通過將這些塊的特徵圖連接起來，生成一個稠密的採樣圖，其中不同塊的相鄰信息可以進行互補。

獨特的空間金字塔池DASPP：

在並行的帶孔卷積分支中，分別採用池大小爲3×3、5×5和7×7。三個支路的3×3 帶孔卷積運算對應的atrous率分別爲12、24和36。將ASPP中原始的1×1卷積分支改爲1×1卷積和3×3卷積運算，有效地提高了特徵提取的能力。仍然採用圖像級池化層來捕獲全局上下文信息。如下圖所示：

空間細節保護網絡(SPN)

使用一個精簡版的ResNet-18前兩層爲SPN(詳見下表)。將LBN-AA中的layer1和block2的輸出連接起來作爲SPN的最終輸出。SPN最終輸出的feature map是原始輸入圖像大小的1/4，包含88個通道。雖然SPN得到的feature map分辨率較大，但計算代價較小(因爲壓縮版ResNet-18只使用了淺卷積層)。

特徵融合網絡(FFN)

首先將兩個分支的特徵圖沿通道連接起來。然後應用BN操作縮短特徵距離，平衡特徵尺度。兩個特徵圖相同位置的像素不一定相似，它們可能與該位置上相鄰的像素相似。採用size爲3×3,arous rate d = 2的帶孔卷積來融合特徵。該操作能夠有效地結合目標像素周圍相鄰像素的特徵信息，而不是僅僅依賴於一個位置。然後用大小爲1×1的投影卷積將輸出通道的數量減少到語義類別的數量(216個減少到19個-標籤的類別個數)。在帶孔卷積和投影卷積之間也使用了BN層。最後，利用簡單而高效的雙線性插值，直接將融合結果上採樣到原始輸入圖像的大小。雙線性插值只需要很少的參數，可以達到與轉置卷積相似的精度。

在Cityscapes數據及上獲取的結果如下圖：

與其他先進網絡的結果對比：

對於每個類的分類正確性比較：

在CmaVid數據集上的比較結果：

總結：

在本文中，提出了一種新的實時高性能語義分割方法，以實現在準確性和速度之間的平衡。該方法由四個主要部分組成:LBN-AA、DASPP、SPN和FFN。LBN-AA利用輕量化網絡、卷積、卷積關注模塊提取特徵，得到密集的特徵圖。DASPP增加了輸入特徵的多樣性，利用豐富的上下文信息有效地解決了語義分割的多尺度問題。SPN的設計是爲了保留豐富的空間信息，彌補細節的缺失。FFN負責融合高級和低級特性。這些組件通過緊密耦合和聯合優化來保證語義分割的有效性。在城市景觀和CamVid數據集上的定性和定量結果證明了該方法的有效性和效率。該方法中的一些模塊不僅可以用於實時語義分割，而且可以用於精確的語義分割。

本文僅做學術分享，如有侵權，請聯繫刪文。

推薦閱讀：

重磅！3DCVer-學術論文寫作投稿交流羣已成立
掃碼添加小助手微信，可申請加入3D視覺工坊-學術論文寫作與投稿微信交流羣，旨在交流頂會、頂刊、SCI、EI等寫作與投稿事宜。
同時也可申請加入我們的細分方向交流羣，目前主要有3D視覺、CV&深度學習、SLAM、三維重建、點雲後處理、自動駕駛、CV入門、三維測量、VR/AR、3D人臉識別、醫療影像、缺陷檢測、行人重識別、目標跟蹤、視覺產品落地、視覺競賽、車牌識別、硬件選型、學術交流、求職交流等微信羣，請掃描下面微信號加羣，備註：”研究方向+學校/公司+暱稱“，例如：”3D視覺 + 上海交大 + 靜靜“。請按照格式備註，否則不予通過。添加成功後會根據研究方向邀請進去相關微信羣。原創投稿也請聯繫。
▲長按加微信羣或投稿
▲長按關注公衆號

3D視覺從入門到精通知識星球：針對3D視覺領域的知識點彙總、入門進階學習路線、最新paper分享、疑問解答四個方面進行深耕，更有各類大廠的算法工程人員進行技術指導。與此同時，星球將聯合知名企業發佈3D視覺相關算法開發崗位以及項目對接信息，打造成集技術與就業爲一體的鐵桿粉絲聚集區，近1000+星球成員爲創造更好的AI世界共同進步，知識星球入口：

自動駕駛領域：一種實時高精度的城市道路場景語義分割方法

學習3D視覺核心技術，掃描查看介紹，3天內無條件退款
圈裏有高質量教程資料、可答疑解惑、助你高效解決問題

使用neovim打造go ide(支持代碼跳轉, 代碼補全, 實時語法檢查)

挑戰程序設計競賽 2.3章習題 poj 3046 Ant Counting

Shell/Python中的用戶名獲取

學術期刊因投稿者並非雙一流高校作者而拒稿引熱議！這算學歷歧視嗎？

人臉識別技術如何應用到遊戲和美顏領域？

月薪25-80K丨一汽（南京）招聘雷達感知開發工程師、主管、主任、高級主任

投稿數翻倍，接收率不到三成！史上最難的ECCV你中了嗎？

研究SLAM，對編程的要求有多高？

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

自動駕駛領域：一種實時高精度的城市道路場景語義分割方法

學習3D視覺核心技術，掃描查看介紹，3天內無條件退款 圈裏有高質量教程資料、可答疑解惑、助你高效解決問題

學習3D視覺核心技術，掃描查看介紹，3天內無條件退款
圈裏有高質量教程資料、可答疑解惑、助你高效解決問題