太優秀了,收藏用!轉載自:https://www.cnblogs.com/Jie-Liang/archive/2017/06/29/6902375.html
論文原文地址:https://arxiv.org/abs/1704.06857
應用於語義分割問題的深度學習技術綜述
摘要
應用場景:自動駕駛、室內導航、甚至虛擬現實與增強現實等。
一、引言
語義分割:(應用於靜態2D圖像、視頻甚至3D數據、體數據)是計算機視覺的關鍵問題之一。
圖 1 物體識別或場景理解相關技術從粗粒度推理到細粒度推理的演變:四幅圖片分別代表分類、識別與定位、語義分割、實例分割。
本文核心貢獻如下:
- 1)我們對於現有的數據集給出了一個全面的調查,這些數據集將會對深度學習技術推動的分割項目發揮作用;
- 2)我們對於多數重要的深度學習語義分割方法進行了深度有條理的綜述,包括他們的起源、貢獻等;
- 3)我們進行了徹底的性能評估,使用了多種評價指標如準確率、運行時間、內存佔用等;
- 4)我們對以上結果進行了討論,並給出了未來工作的一系列可能的發展方向,這些方向可能在未來的發展進程中取得優勢。我們還給出了該領域目前最好方法的總結。
本文剩餘部分安排:
- 第二章介紹了語義分割問題,同時引入了相關工作中常用的符號、慣例等。其他的背景概念如通用的深度神經網絡也在這章中回顧;
- 第三章介紹了現有的數據集、挑戰及實驗基準;
- 第四章回顧了現有方法,基於其貢獻自下而上排序。本章重點關注這些方法的理論及閃光點,而不是給出一個定量的評估;
- 第五章給出了一個簡短的對於現有方法在給定數據集上定量表現的討論,另外還有未來相關工作的發展方向;
- 第六章則總結全文並對相關工作及該領域目前最優方法進行了總結。
二、術語及背景概念
語義分割是實現細粒度推理的很自然的一步,它的目標是:對每個像素點進行密集的預測,這樣每個像素點均被標註上對應物體或區域的類別。
2.1 常見的深度網絡架構
AlexNet(2012)
AlexNet(以作者名字Alex命名)首創了深度卷積神經網絡模型,在2012年ILSVRC(ImageNet大規模圖像識別)競賽上以top-5準確率84.6%的成績獲勝,而與之最接近的競爭者使用了傳統的而非深度的模型技術,在相同的問題下僅取得了73.8%的準確率。由Krizhecsky等人[14]給出的架構相對簡單,包括卷積層、max-pooling層及ReLU層各五層作爲非線性層,全連接層三層以及dropout層。圖2給出了這個架構的示意。
圖 2 AlexNet卷積神經網絡架構。
VGG(2013)
這個模型由於由16個權重層組成,因此也被稱爲VGG-16,,VGG-16與之前的模型的主要的不同之處在於,其在第一層使用了一堆小感受野的卷積層,而不是少數的大感受野的卷積層。這使得模型的參數更少,非線性性更強,也因此使得決策函數更具區分度,模型更好訓練。
圖 3 VGG-16卷積神經網絡模型架構
GoogLeNet(2014)
這個CNN模型以其複雜程度著稱,事實上,其具有22個層以及新引入的inception模塊(如圖4所示)。這種新的方法證實了CNN層可以有更多的堆疊方式,而不僅僅是標準的序列方式。實際上,這些模塊由一個網絡內部的網絡層(NiN)、一個池化操作、一個大卷積核的卷積層及一個小核的卷積層組成。所有操作均並行計算出來,而後進行1×1卷積操作來進行降維。由於這些模塊的作用,參數及操作的數量大大減少,網絡在存儲空間佔用及耗時等方面均取得了進步。
圖 4 GoogLeNet框架中帶有降維的Inception模塊。
ResNet(2016)
ResNet網絡還以其高達152層的深度以及對殘差模塊的引入而聞名。殘差模塊解決了訓練真正深層網絡時存在的問題,通過引入identity skip connections網絡各層可以把其輸入複製到後面的層上。本方法的關鍵想法便是,保證下一層可以從輸入中學到與已經學到的信息不同的新東西(因爲下一層同時得到了前一層的輸出以及原始的輸入)。另外,這種連接也協助解決了梯度消失的問題。
圖 5 ResNet中的殘差模塊
ReNet
爲了將循環神經網絡RNN模型擴展到多維度的任務上,Graves等人[18]提出了一種多維度循環神經網絡(MDRNN)模型,將每個單一的循環連接替換爲帶有d個連接的標準RNN,其中d是數據的spatio-temporal維度。基於這篇工作,Visin等人[19]提出了ReNet模型,其不使用多維RNN模型,而是使用常見的序列RNN模型。這樣,RNN模型的數量在每一層關於d(輸入圖像的維數2d)線性增長。在ReNet中,每個卷積層(卷積+池化)被4個同時在水平方向與豎直方向切分圖像的RNN模型所替代,如圖6所示:
圖 6 ReNet架構中的一層,對豎直與水平方向的空間依賴性建模