論文閱讀—圖像分割方法綜述(一)(arXiv:[cs:cv]20200410)

論文:Image Segmentation Using Deep Learning:A Survey
作者:Shervin Minaee, Yuri Boykov, Fatih Porikli, Antonio Plaza

論文閱讀—圖像分割方法綜述(二)(arXiv:[cs:cv]20200410)
論文閱讀—圖像分割方法綜述(三)(arXiv:[cs:cv]20200410)

1、Abstract

圖像分割是圖像處理和計算機視覺中的關鍵主題,其應用包括場景理解,醫學圖像分析,機器人感知,視頻監控,增強現實和圖像壓縮等。在文獻中已經開發了用於圖像分割的各種算法。最近,由於深度學習模型在各種視覺應用中的成功,已經有大量旨在利用深度學習模型開發圖像分割方法的工作。在本次調查中,我們在撰寫本文時提供了對文獻的全面回顧,涵蓋了語義和實例級分割的各種開創性作品,包括全卷積像素標記網絡,編碼器-解碼器體系結構,多尺度以及基於金字塔的方法,遞歸網絡,視覺注意模型以及對抗環境中的生成模型。 我們研究了這些深度學習模型的相似性,優勢和挑戰,研究了使用最廣泛的數據集,報告了性能,並討論了該領域有希望的未來研究方向。

2、Introduction

在許多視覺理解系統中,圖像分割是必不可少的組成部分。它涉及將圖像(或視頻幀)劃分爲多個片段或對象[1]。分割在廣泛的應用[2]中起着中心作用,包括醫學圖像分析(例如腫瘤邊界提取和組織體積測量),自動駕駛車輛(例如可導航的地面和行人檢測),視頻監控和增強現實數數。從最早的方法,例如閾值[3],基於直方圖的捆綁,區域增長[4],k均值聚類[5],分水嶺[6],到更高級的算法,文獻中已經開發了多種圖像分割算法。例如活動輪廓[7],圖割[8],條件和Markov隨機字段[9]以及基於稀疏性的[10]-[11]方法。 然而,在過去的幾年中,深度學習(DL)網絡產生了新一代的圖像分割模型,其性能得到了顯着提高-通常在常用基準上達到最高的準確率-導致許多人將其視爲該領域的範式轉變。例如,圖1展示了一個傑出的深度學習模型DeepLabv3 [12]的樣本圖像分割輸出。 在這裏插入圖片描述

圖像分割可被表述爲具有語義標籤的像素分類問題(語義分割)或單個對象的劃分(實例分割)。 語義分割對所有圖像像素使用一組對象類別(例如,人,汽車,樹木,天空)執行像素級標記,因此通常比圖像分類要困難得多,後者要爲整個圖像預測一個標籤。 實例分割通過檢測並描繪圖像中的每個感興趣的對象(例如,各個人的分割)進一步擴展了語義分割的範圍。

我們的調查涵蓋圖像分割的最新文獻,並討論了直到2019年提出的一百多種基於深度學習的分割方法。我們對這些方法的不同方面提供了全面的回顧和見解,包括訓練數據,網絡結構的選擇 ,損失函數,訓練策略及其主要貢獻。 並且對每種方法的性能進行了比較,並討論了基於深度學習的圖像分割模型的一些挑戰和潛在的未來方向。 我們根據深度學習的主要技術貢獻將其分爲以下幾類:
1)全卷積網絡
2)帶圖形模型的卷積模型
3)基於編解碼器的模型
4)基於多尺度和金字塔網絡的模型
5)基於R-CNN的模型(例如細分)
6)擴展的卷積模型和DeepLab系列
7)基於遞歸神經網絡的模型
8)基於注意力的模型
9)生成模型和對抗訓練
10)具有活動輪廓模型的卷積模型

11)其他模型

該綜述主要貢獻總結如下:

1、調研了截止2019年提出的100多種分割算法,分爲10類。我們使用深度學習對細分算法的各個方面進行全面的回顧和深入的分析,包括訓練數據,網絡架構的選擇,損失函數,訓練策略及其主要貢獻。
2、概述了約20種流行的圖像分割數據集,分爲2D,2.5D(RGB-D)和3D圖像。
3、提供了在同一基準下不同分割算法的性能比較。
4、我們爲基於深度學習的圖像分割提供了一些挑戰和潛在的未來方向。

3、OVERVIEW OF DEEP NEURAL NETWORKS

3.1 Convolutional Neural Networks (CNNs)

在這裏插入圖片描述
CNN主要由三種類型的層組成:i)卷積層,用來提取特徵; ii)非線性層,它們在特徵圖上(通常是逐元素地)應用激活函數,以便能夠通過網絡對非線性函數進行建模; iii)池化層,降低空間分辨率。CNN的主要計算優勢在於,每層感受野的參數共享,因此與完全連接的神經網絡相比,參數數量明顯減少。一些最著名的CNN架構包括:AlexNet [19],VGGNet [20],ResNet [21],GoogLeNet [22],MobileNet [23]和DenseNet [24]。

3.2 Recurrent Neural Networks (RNNs) and the LSTM

RNN [25]被廣泛用於處理順序數據,例如語音,文本,視頻和時間序列,其中任何給定時間/位置的數據都取決於先前遇到的數據。 在每個時間點上,模型都會收集當前時間Xi的輸入和上一步hi-1的隱藏狀態,並輸出目標值和新的隱藏狀態。
在這裏插入圖片描述
RNN通常在長序列方面存在問題,因爲它們無法捕獲許多實際應用中的長期依賴關係(儘管它們在這方面沒有任何理論上的限制)並且經常遭受梯度消失或爆炸問題的困擾。 然而,一種稱爲長短期記憶(LSTM)[14]的RNN旨在避免這些問題。 LSTM體系結構(圖4)包括三個門(輸入門,輸出門,遺忘門),它們調節信息進出存儲單元的信息流,該存儲單元在任意時間間隔內存儲值。
在這裏插入圖片描述
各個門之間的關係如下:
在這裏插入圖片描述

3.3 Encoder-Decoder and Auto-Encoder Models

編碼器-解碼器模型是一類模型,可以學習通過兩級網絡將數據點從輸入域映射到輸出域:由編碼函數z =f(x)表示的編碼器將輸入壓縮爲潛在空間表示;解碼器y=g(z)旨在預測潛在空間表示的輸出。這裏的潛在表示本質上是指特徵表示,它能夠捕獲基礎輸入的語義信息,可用於預測輸出。這些模型在圖像到圖像轉換問題以及NLP中的序列模型中非常流行。圖5示出了簡單的編碼器-解碼器模型的框圖。通常通過最小化重建損失L(y,y’)來訓練這些模型,重建損失L(y,y’)真實輸出y和後續重建y’之間的差異。此處的輸出可以是圖像的增強版本(例如,在圖像去模糊或超分辨率中),也可以是分割圖。
在這裏插入圖片描述
自動編碼器是編碼器-解碼器模型的特例,其中輸入和輸出相同。 已經提出了自動編碼器的幾種變型。 最受歡迎的一種是堆疊式降噪自動編碼器(SDAE)[26],它可以堆疊多個自動編碼器並將其用於圖像降噪。 另一個流行的變體是變分自動編碼器(VAE)[27],它在潛在表示上施加了先驗分佈。 VAE能夠根據給定的數據分佈生成實際樣本。 對抗性自動編碼器是另一種變體,它在潛在表示上引入對抗性損失,以鼓勵它們近似先驗分佈。

3.4 Generative Adversarial Networks (GANs)

GAN是較新的深度學習模型家族[16]。 它們由兩個網絡組成:一個生成器和一個鑑別器(圖6)。生成網絡G = z! 常規GAN中的y學習從噪聲z(具有先驗分佈)到目標分佈y的映射,這類似於“真實”樣本。 鑑別器網絡D嘗試將生成的樣本(“假貨”)與“真實”樣本區分開。在這裏插入圖片描述(https://img-blog.csdnimg.cn/20200602154204782.png?

4、 DL-BASED IMAGE SEGMENTATION MODELS

本節詳細介紹了直至2019年提出的一百多種基於深度學習的細分方法,分爲10類。 值得一提的是,在許多這些作品中有一些共同點,例如具有編碼器和解碼器部分,跳過連接,多尺度分析以及最近使用的擴展卷積。 因此,很難提到每件作品的獨特貢獻,但是更容易根據它們對先前作品的基礎架構貢獻來將它們分組。

4.1 Fully Convolutional Networks

Long等 [32]提出了使用全卷積網絡(FCN)進行語義圖像分割的首批深度學習作品之一。 FCN(圖7)僅包含卷積層,這使它能夠拍攝任意大小的圖像並生成相同大小的分段圖。作者修改了現有的CNN架構,例如VGG16和GoogLeNet,以通過將所有全連接的層替換爲全卷積的層來管理大小不固定的輸入和輸出。最終模型輸出是空間分割圖而不是類別分數。
在這裏插入圖片描述

通過使用跳過連接,其中對模型最後層的特徵圖進行了上採樣並與早期層的特徵圖(圖8)融合,該模型將語義信息(來自較深,較粗糙的層)和外觀信息( 從淺層,細層開始)以生成準確且詳細的細分。該模型在PASCAL VOC,NYUDv2和SIFT Flow上進行了測試,並實現了最新的分割性能。
在這裏插入圖片描述
這項工作被認爲是圖像分割的一個里程碑,表明可以對端到端的可變圖像進行語義分割的深度網絡訓練。 但是,儘管傳統的FCN模型廣受歡迎和有效,但它還是有一些侷限性——它不夠快,無法進行實時推理,它沒有有效地考慮全局上下文信息,並且不容易轉換爲3D圖片。 爲了克服FCN的某些侷限性,已經進行了一些努力。

例如劉等 [33]提出了一個名爲ParseNet的模型來解決FCN的一個問題,即忽略全局上下文信息。 ParseNet通過使用每層特徵圖的平均值來增強特徵,從而將全局上下文添加到FCN。 不同層的特徵圖被合併到整個圖像上,從而產生上下文向量。 對該上下文向量進行規範化和解池化,以生成與初始大小相同的新特徵圖。 然後將這些特徵圖連接起來。 簡而言之,ParseNet是FCN,其中所描述的模塊代替了卷積層(圖9)。
在這裏插入圖片描述
FCN已應用於各種分割問題,例如腦腫瘤分割[34],實例感知語義分割[35],皮膚病變分割[36]和虹膜分割[37]。

4.2 Convolutional Models With Graphical Models

如所討論的,FCN忽略了可能有用的場景級語義上下文。 爲了集成更多上下文,幾種方法將概率圖形模型(例如條件隨機場(CRF)和馬爾可夫隨機場(MRF))納入DL結構。

Chen等 [38]提出了一種基於CNN和全連接的CRF語義分割算法(圖10)。 他們表明,來自深層CNN的最後一層的響應未充分定位以進行準確的對象分割(由於不變性使CNN可以很好地用於高級任務,例如分類)。 爲了克服深層CNN的不良定位特性,他們將最終CNN層的響應與完全連接的CRF相結合。 他們表明,與以前的方法相比,他們的模型能夠以更高的準確率定位分割邊界。
在這裏插入圖片描述
Schwing和Urtasun [39]提出了一種全連接的深度結構化網絡,用於圖像分割。 他們提出了一種聯合訓練CNN和完全連接的CRF進行語義圖像分割的方法,並在具有挑戰性的PASCAL VOC 2012數據集上取得了令人鼓舞的結果。 在[40]中,Zheng等。 提出了一種類似的將CRF與CNN集成的語義分割方法。
在另一項相關工作中,Lin等人。 [41]提出了一種基於上下文深度CRF的高效語義分割算法。 他們探索了“補丁-補丁”上下文(圖像區域之間)和“補丁-背景”上下文,以通過使用上下文信息來改善語義分割。

篇幅過大,下章待續…

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章