多篇開源CVPR 2020 語義分割論文

多篇開源CVPR 2020 語義分割論文

前言

  1. DynamicRouting:針對語義分割的動態路徑選擇網絡

Learning Dynamic Routing for Semantic Segmentation

作者團隊:中科院&國科大&西安交大&曠視

論文鏈接:https://arxiv.org/abs/2003.10401

代碼鏈接:https://github.com/yanwei-li/DynamicRouting

近年來,大量的人工搜索網絡被應用於語義分割。然而,以前的工作意圖在預定義的靜態架構(如FCN、U-Net和DeepLab系列)中處理各種規模的輸入。本文研究了一種新的概念化的語義表示方法,稱爲動態路由。該框架根據每個圖像的尺度分佈,生成與數據相關的路由。爲此,提出了一種可微選通函數軟條件門,用於動態選擇尺度變換路徑。此外,通過對選通函數給予預算約束,以端到端的方式進一步降低計算成本。進一步放寬了網絡層的路由空間,以支持多徑傳播,並在每次轉發時跳過連接,帶來了可觀的網絡容量。爲了證明動態特性的優越性,比較了幾種靜態結構,它們可以在路由空間中建模爲特殊情況。爲了說明動態框架的有效性,在Cityscapes and PASCAL VOC 2012上進行了廣泛的實驗。

注:性能優於Auto-DeepLab、PSPNet等網絡,已收錄於CVPR 2020(Oral)!

論文解讀:CVPR 2020(Oral) | 曠視提出DynamicRouting:針對語義分割的動態路徑選擇網絡

在這裏插入圖片描述

  1. HANet:通過高度驅動注意力網絡改善城市場景分割

Cars Can’t Fly up in the Sky: Improving Urban-Scene Segmentation via Height-driven Attention Networks

作者團隊:LG&LLNL&高麗大學&韓國科學技術院

論文鏈接:https://arxiv.org/abs/2003.05128

代碼鏈接:https://github.com/shachoi/HANet

本文利用城市場景圖像的內在特徵,提出了一個通用的附加模塊高度驅動注意網絡(HANet),用於改進城市場景圖像的語義分割。它根據像素的垂直位置有選擇地強調信息特徵或類。在城市場景圖像的水平分割區域中,像素級分佈存在顯著差異。同樣,城市場景圖像也有其獨特的特徵,但大多數語義分割網絡並沒有反映出這種獨特的屬性。該網絡體系結構結合了利用屬性對城市場景數據集進行有效處理的能力。驗證了當採用HANet時,不同語義分割模型在兩個數據集上的一致性性能(mIoU)的提高。這種廣泛的定量分析表明,將模塊添加到現有的模型中是容易和成本效益高的。在基於ResNet-101的分割模型中,方法在Cityscapes基準上獲得了最新的性能,並且有很大的差距。通過對注意圖的可視化和解釋,證明了該模型與城市場景中觀察到的事實是一致的。

注:在Cityscapes測試集高達83.2mIoU!論文解讀:CVPR2020| HANet:通過高度驅動的注意力網絡改善城市場景語義分割

在這裏插入圖片描述

  1. SPNet(條狀池化):重新思考空間池化以進行場景解析

Strip Pooling: Rethinking Spatial Pooling for Scene Parsing

作者團隊:新加坡國立大學&牛津大學&南開大學

論文鏈接:https://arxiv.org/abs/2003.13328

代碼鏈接:https://github.com/Andrew-Qibin/SPNet

空間池在捕獲像素級預測任務(如場景解析)的遠程上下文信息方面已被證明是非常有效的。在本文中,除了通常具有規則NxN形狀的傳統空間池之外,通過引入一種新的池策略(稱爲條池策略)來重新考慮空間池的形式,該策略考慮了一個狹長的內核,即1xN或Nx1。在條帶池的基礎上,進一步研究了空間池的體系結構設計:1)引入了一個新的條帶池模塊,使骨幹網能夠有效地建模遠程依賴關係;2)提出了一個以多種空間池爲核心的新的構建塊,(3)系統地比較了所提出的條帶池和傳統空間池技術的性能。這兩種新的基於池的設計都是輕量級的,可以作爲現有場景解析網絡中的一個有效的即插即用模塊。在流行基準(如ADE20K和Cityscapes)上進行的大量實驗表明,我們的簡單方法建立了新的最先進的結果。

注:本文提出SPNet語義分割新網絡,含Strip池化方法,表現SOTA!性能優於CCNet、APNB和APCNet等網絡論文解讀:CVPR2020| Strip Pooling:語義分割新trick,條紋池化取代空間池化。

在這裏插入圖片描述

  1. CPNet:場景分割的上下文先驗(Prior)

Context Prior for Scene Segmentation

作者團隊:華中科技大學&阿德萊德大學(沈春華)&港中文&騰訊(俞剛)

論文鏈接:https://arxiv.org/abs/2004.01547

代碼鏈接:https://git.io/ContextPrior

近年來,爲了獲得更準確的分割結果,人們對上下文依賴進行了廣泛的研究。然而,大多數方法很少區分不同類型的上下文依賴關係,這可能會影響場景理解。在這項工作中,直接監督特徵聚合,以清楚地區分類內和類間上下文。具體來說,在監督親和力損失之前開發一個上下文。在給定輸入圖像和相應的背景真實度的情況下,關聯損失構造一個理想的關聯映射來監督上下文的先驗學習。學習的上下文先驗提取屬於同一類別的像素,而反向先驗則聚焦於不同類別的像素。嵌入到傳統的深層CNN中,提出的上下文優先層可以選擇性地捕獲類內和類間的上下文依賴關係,從而獲得魯棒的特徵表示。爲了驗證其有效性,設計了一個有效的上下文優先網絡(CPNet)。大量的定量和定性評估表明,所提出的模型優於目前最先進的語義分割方法。更具體地說,算法在ADE20K上達到46.3%的mIoU,在PASCAL上下文上達到53.9%的mIoU,在Cityscapes上達到81.3%的mIoU。

注:表現SOTA!性能優於ANL、EncNet和DenseASPP等網絡論文解讀:81.3%mIoU!華中科大等提出Context
Prior:在語義分割中引入上下文先驗 | CVPR2020

在這裏插入圖片描述

  1. TDNet:用於快速視頻語義分割的時間分佈式網絡

Temporally Distributed Networks for Fast Video Semantic Segmentation

作者團隊:波士頓大學&Adobe研究院

論文鏈接:https://arxiv.org/abs/2004.01800

代碼鏈接:https://github.com/feinanshan/TDNet

本文提出了一種時間分佈的視頻語義分割網絡TDNet。從深層CNN的某一高層提取的特徵可以通過組合從幾個較淺的子網絡提取的特徵來近似。利用視頻中固有的時間連續性,將這些子網絡分佈在連續幀上。因此,在每個時間步驟中,只需執行輕量級計算即可從單個子網絡中提取子特徵組。然後應用一種新的注意傳播模塊來補償幀間的幾何變形,從而重新構造用於分割的全部特徵。爲了進一步提高全特徵層和子特徵層的表示能力,還引入了分組知識蒸餾損失。在CityScape、CamVid和NYUD-v2上的實驗表明,方法以更快的速度和更低的延遲達到了最先進的精度。

注:表現SOTA!性能優於PSPNet、BiseNet等網絡。

在這裏插入圖片描述

  1. SEAM:弱監督語義分割的自監督等變注意力機制

Self-supervised Equivariant Attention Mechanism for Weakly
Supervised Semantic Segmentation

作者團隊:中科院&國科大等

論文鏈接:https://arxiv.org/abs/2004.04581

代碼鏈接:https://github.com/YudeWang/SEAM

圖像級弱監督語義分割是近年來深入研究的一個具有挑戰性的問題。大多數高級解決方案利用類激活圖(CAM)。然而,由於監控的充分性和薄弱性,CAMs很難作爲目標遮罩。本文提出了一種自監督的等變注意機制(SEAM),以發現額外的監督並縮小差距。方法是基於在全監督語義分割中,等價性是一個隱含的約束條件,其像素級標籤在數據增強過程中與輸入圖像採用相同的空間變換。然而,這種約束在由圖像級監控訓練的CAMs上丟失了。因此,提出了基於不同變換圖像的預測CAMs一致性正則化,爲網絡學習提供自我監控。此外,還提出了一個像素相關模塊(PCM),該模塊利用上下文外觀信息,並通過其相似鄰域對當前像素進行細化預測,從而進一步提高了CAMs的一致性。在PASCAL VOC 2012數據集上的大量實驗表明,方法優於使用相同監控級別的最新方法。

注:表現SOTA!性能優於AffinityNet、IRNet和DCSP等網絡

在這裏插入圖片描述

  1. SEAM:弱監督語義分割的自監督等變注意力機制

Unsupervised Intra-domain Adaptation for Semantic Segmentation through Self-Supervision

作者團隊:韓國科學技術院(KAIST)

論文鏈接:https://arxiv.org/abs/2004.07703

代碼鏈接:https://github.com/feipan664/IntraDA

基於卷積神經網絡的語義分割方法取得了顯著的進展。然而,這些方法在很大程度上依賴於勞動密集型的註釋數據。爲了克服這一侷限性,利用圖形引擎生成的自動標註數據訓練分割模型。然而,從合成數據中訓練出來的模型很難轉化爲真實的圖像。爲了解決這個問題,以前的工作考慮直接將模型從源數據調整到未標記的目標數據(以減少域間的差距)。儘管如此,這些技術並沒有考慮到目標數據本身之間的巨大分佈差距(域內差距)。在這項工作中,提出了一個兩步自監督域適應方法,以最小化域間和域內的差距。首先,對模型進行域間自適應;從這種自適應中,使用基於熵的排序函數將目標域分成容易和難分割的兩部分。最後,爲了減小域內的差距,建議採用一種自監督的自適應技術,從易分割到難分割。在大量基準數據集上的實驗結果突出了方法相對於現有的最新方法的有效性。
注:表現SOTA!性能優於AdaptSegNet、AdvEnt和CyCADA等網絡。
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章