Learning a Discriminative Feature Network for Segmantic Segmentation--CVPR 2018

Abstract.

1.existing methods of semantic segmentation still suffer from two aspects of challenges:

  (1)intra-class inconsistency(類內的不一致)   (2).inter-class indistinction(類間的模糊不分明)

2.we propose a Discriminative Feature Network ( DFN ) ,

   DNF = Smooth Network + Border Network

 (1)處理類內的不一致問題:

       Smooth Network +Channel Attention Block+global average pooling

這樣可以選取更加具有判別性的特徵。

 (2)處理類間模糊的問題

Border Network

這樣可以使邊界的雙邊特徵更加分明

Introduction.

介紹中主要講了FCN和之前的一些方法,這些方法都有以下兩個方面的缺點:1)patches有相同的semantic label,但是appearances是不同的,往往被分割爲兩個不同的objects。2)兩個相鄰的patches有不同的semantic labels,但是appearances相同,往往也會被誤判爲兩個相同的objects

the architecture pf ours:

對於Smooth Network我們需要解決兩個問題:

  (1)我們需要多個規模的和全局內容的information對於局部和全局的信息進行編碼,所以在這個結構中我們採用了U-shape的network去獲取多尺度的內容信息,然後用global average pooling去獲取全局的信息,作者還採用了Channel Attention Block(CAB)的機制去用high-level features 引導對於lower-level features的選擇。

對於Border Network: 

(2)Border Network用來去分割兩個有相同的appearances但是有不同的semantic labels的patches


 

Related Work.

Encoder-Decoder

對於FCN內在的對於不同的級別的features進行了編碼,有些approches就把他們進行融合對final  prediction

達到refine的效果。這些方法最主要的就是考慮如何去恢復spatial information在這裏有SegNet,U-net,LRRR,RefineNet

SegNet , U-net , LRR , RefinNet :這些之前的方法都沒有考慮到global context,而且大部分像這樣的方法都是對於相鄰部分的特徵進行總結,而沒有考慮到他們之間的多種多樣的representation,這會導致類內不一致的結果

Global Context

 

  global average pooling => Spatial Pyramid pooling => Atrous Spatial Pyamid Pooling

        ParseNet                                                   PSPNet , Deeplab v3

Attention Module

注意力機制指的是把那些值得關心的部分賦予高的權重,給他最大的注意力,對一幅圖中最重要的patch給予最大的關注。

Semantic Boundary Detection

  語義邊界識別中的大部分的方法是直接把不同的level的features串聯起來去提取boundary

Method

  在Smooth Network中我們採用ResNet作爲基本的model,在low stage中感受野的size比較小隻能encode spatial information,而對於語義的連續性比較差;但是在high stage他有很強的語義連續性,因爲他有很大的 感受野,但是prediction在spatial上會很模糊。於是我們結合了low stage和high stage的特點去達到更加好的效果。

  在現在流行的語義分割的結構中,這裏主要有兩種風格:

    (1)‘Backbone-Style’ 典型的approches如,PSPNet,Deeplab v3;這種類型的方法主要是用‘Pyramid pooling module’和’Atrous spatial Ptramid Pooling module‘注入不同尺度的信息去提高網絡的連續性

       (2)'Encoder-Decoder-style'典型的方法如,RefinNet ,Global Convolutional Network;這種方法主要利用在不同stage的內在的多種尺度的context,但是它缺乏global context,在global context中含有很強的連續性。

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章