[GCPNet]Scene Parsing with Global Context Embedding

Abstract

加州大學美熹德分校發表在ICCV 2017上的工作.
本文利用全局信息進行場景解析。訓練基於場景相似度的網絡來產生一張圖片的全局信息特徵關係,然後利用該信息產生全局和空間的先驗知識。最後將這些先驗知識作爲全局上下文線索結合到分割網絡中。實驗辨明這種做法可以較少與全局信息相悖的假正例,最後在MIT ADE20k和PASCAL Context上達到了不錯的性能.
本文的主要貢獻有三點:(1)設計一種Siamese network來學習全局信息表示(2)提出兩種方法基於特徵學習和非參數先驗編碼的形式來利用全局信息(3)結合分割網絡、上下文特徵編碼和非參數先驗編碼提出全局特徵嵌入模式來高校進行場景解析.

Motivation

4
目前的網絡大多隻考慮局部特徵,並不能爲網絡提供足夠的全局線索,導致不能很好地場景中的某一塊具體屬於什麼類別。如圖所示。
以前的一些做法是使用MRF, CRF或者全局信息等進行處理,還有一些非參數化的方法,通過對圖片進行相似性的檢索,將被檢索圖片的信息對最終結果的頭片,但是這中方法往往基於手工構建的特徵進行檢索。

本文考慮使用深度學習的方法產生這些非參數先驗信息,並結合到網絡中提高結果。

Framework

1

  1. 全局上下文信息提取網絡
    網絡結構如下:
    1
    利用ground truth distance來定義兩張圖片是否相似.爲了計算gt distance,先對groundtruth生成空間金字塔,然後對兩張圖片香味塊的標籤的直方圖計算卡方距離.
    1
    圖片中hi(s, c)是指在空間金字塔s的位置,像素屬於類別c的數量.i和j表示第i張和第j張圖.
    2
    由於有的類別出現的次數比較少,不平衡的樣本可能導致訓練結果向忽略少樣本傾斜,因此需要進行加權處理.
    3
    f(c)指在整個數據集中類別c存在的圖片的總數量.
    加權之後,利用KNN產生相似圖片和不相似圖片對(即Siamese Network的ground truth),進行後續訓練.

  2. 產生非參數化的先驗
    使用上述產生的全局信息,利用KNN進行檢索,對於檢索到的圖片,考慮到通常情況下不僅要考慮一個物體是否存在與圖片中,還要考慮一張物體在圖片中的每個位置的可能性.因此產生兩種先驗——全局先驗和空間先驗.
    空間先驗 的求解過程:
    先將被檢索到的圖片resize到SXS.然後計算:

1
其中Kp表示被檢索到的圖片總數,yk表示第k張圖片,yk[p,q]是座標爲[p,q]的像素,N(yk[p,q], c)在[p,q]位置是否被標記爲類別c,Ps表示平均可能性。容易知道Ps的維度爲CxSxS.
全局先驗 的求解過程:
利用空間位置不變形,僅考慮物體是否存在.
2
其中,N(yk, c)表示第k張被檢索到的圖片中類別爲c的像素的個數. Pg的維度爲1x1xC

  1. 全局上下文信息和非參數化的先驗與分割網絡相結合.
    1
    這一部分圖下已經解釋很清楚了…

Result

本文采用基於Fcn-VGG16-8s和DeepLab-ResNet101.設置Crop size.
2
3

Code

Code: https://github.com/hfslyc/GCPNet

Thinking

和我之前的一個想法類似,有借鑑意義,但是從效果看來,提升並不明顯.沒有在主流數據集PASCAL VOC2012和Cityscapes上的結果.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章