深度學習來做圖像分割 Fully Convolutional Networks for Semantic Segmentation (FCNs)


摘要

卷積網絡在特徵分層領域是非常強大的視覺模型。我們證明了經過端到端、像素到像素訓練的卷積網絡超過語義分割中最先進的技術。我們的核心觀點是建立“全卷積”網絡,輸入任意尺寸,經過有效的推理和學習產生相應尺寸的輸出。我們定義並指定全卷積網絡的空間,解釋它們在空間範圍內dense prediction任務(預測每個像素所屬的類別)和獲取與先驗模型聯繫的應用。我們改編當前的分類網絡(AlexNet [22] ,the VGG net [34] , and GoogLeNet [35] )到完全卷積網絡和通過微調 [5] 傳遞它們的學習表現到分割任務中。然後我們定義了一個跳躍式的架構,結合來自深、粗層的語義信息和來自淺、細層的表徵信息來產生準確和精細的分割。我們的完全卷積網絡成爲了在PASCAL VOC最出色的分割方式(在2012年相對62.2%的平均IU提高了20%),NYUDv2,和SIFT Flow,對一個典型圖像推理只需要花費不到0.2秒的時間。 

1. 引言

卷積網絡在識別領域前進勢頭很猛。卷積網不僅全圖式的分類上有所提高 [22,34,35] ,也在結構化輸出的局部任務上取得了進步。包括在目標檢測邊界框 [32,12,19] 、部分和關鍵點預測 [42,26] 和局部通信 [26,10] 的進步。

在從粗糙到精細推理的進展中下一步自然是對每一個像素進行預測。早前的方法已經將卷積網絡用於語義分割 [30,3,9,31,17,15,11] ,其中每個像素被標記爲其封閉對象或區域的類別,但是有個缺點就是這項工作addresses。

我們證明了經過 端到端 、像素到像素訓練的的卷積網絡超過語義分割中沒有further machinery的最先進的技術。我們認爲,這是第一次訓練端到端(1)的FCN在像素級別的預測,而且來自監督式預處理(2)。全卷積在現有的網絡基礎上從任意尺寸的輸入預測密集輸出。學習和推理能在全圖通過密集的前饋計算和反向傳播一次執行。網內上採樣層能在像素級別預測和通過下采樣池化學習。

這種方法非常有效,無論是漸進地還是完全地,消除了在其他方法中的併發問題。Patchwise訓練是常見的 [30, 3, 9, 31, 11] ,但是缺少了全卷積訓練的有效性。我們的方法不是利用預處理或者後期處理解決併發問題,包括超像素 [9,17] ,proposals [17,15] ,或者對通過隨機域事後細化或者局部分類 [9,17] 。我們的模型通過重新解釋分類網到全卷積網絡和微調它們的學習表現將最近在分類上的成功 [22,34,35] 移植到dense prediction。與此相反,先前的工作應用的是小規模、沒有超像素預處理的卷積網。

語義分割面臨在語義和位置的內在張力問題:全局信息解決的“是什麼”,而局部信息解決的是“在哪裏”。深層特徵通過非線性的局部到全局金字塔編碼了位置和語義信息。我們在4.2節(見圖3)定義了一種利用集合了深、粗層的語義信息和淺、細層的表徵信息的特徵譜的跨層架構。

在下一節,我們回顧深層分類網、FCNs和最近一些利用卷積網解決語義分割的相關工作。接下來的章節將解釋FCN設計和密集預測權衡,介紹我們的網內上採樣和多層結合架構,描述我們的實驗框架。最後,我們展示了最先進技術在PASCAL VOC 2011-2, NYUDv2, 和SIFT Flow上的實驗結果。 

2. 相關工作

我們的方法是基於最近深層網絡在圖像分類上的成功 [22,34,35] 和轉移學習。轉移第一次被證明在各種視覺識別任務 [5,41] ,然後是檢測,不僅在實例還有融合proposal-classification模型的語義分割 [12,17,15] 。我們現在重新構建和微調直接的、dense prediction語義分割的分類網。在這個框架裏我們繪製FCNs的空間並將過去的或是最近的先驗模型置於其中。

全卷積網絡據我們所知,第一次將卷積網擴展到任意尺寸的輸入的是Matan等人 [28] ,它將經典的LeNet [23] 擴展到識別字符串的位數。因爲他們的網絡結構限制在一維的輸入串,Matan等人利用譯碼器譯碼獲得輸出。Wolf和Platt [40] 將卷積網輸出擴展到來檢測郵政地址塊的四角得分的二維圖。這些先前工作做的是推理和用於檢測的全卷積式學習。Ning等人 [30] 定義了一種卷積網絡用於秀麗線蟲組織的粗糙的、多分類分割,基於全卷積推理。

全卷積計算也被用在現在的一些多層次的網絡結構中。Sermanet等人的滑動窗口檢測 [32] ,Pinherio 和Collobert的語義分割 [31] ,Eigen等人的圖像修復 [6] 都做了全卷積式推理。全卷積訓練很少,但是被Tompson等人 [38] 用來學習一種端到端的局部檢測和姿態估計的空間模型非常有效,儘管他們沒有解釋或者分析這種方法。

此外,He等人 [19] 在特徵提取時丟棄了分類網的無卷積部分。他們結合proposals和空間金字塔池來產生一個局部的、固定長度的特徵用於分類。儘管快速且有效,但是這種混合模型不能進行端到端的學習。

基於卷積網的dense prediction近期的一些工作已經將卷積網應用於dense prediction問題,包括Ning等人的語義分割 [30] ,Farabet等人 [9] 以及Pinheiro和Collobert [31] ;Ciresan等人的電子顯微鏡邊界預測 [3] 以及Ganin和Lempitsky [11] 的通過混合卷積網和最鄰近模型的處理自然場景圖像;還有Eigen等人 [6,7] 的圖像修復和深度估計。這些方法的相同點包括如下:

  • 限制容量和接收域的小模型
  • patchwise訓練 [30,3,9,31,11]
  • 超像素投影的預處理,隨機場正則化、濾波或局部分類 [9,3,11]
  • 輸入移位和dense輸出的隔行交錯輸出 [32,31,11]
  • 多尺度金字塔處理 [9,31,11]
  • 飽和雙曲線正切非線性 [9,6,31]
  • 集成 [3,11]

然而我們的方法確實沒有這種機制。但是我們研究了patchwise訓練 (3.4節)和從FCNs的角度出發的“shift-and-stitch”dense輸出(3.2節)。我們也討論了網內上採樣(3.3節),其中Eigen等人[7]的全連接預測是一個特例。

和這些現有的方法不同的是,我們改編和擴展了深度分類架構,使用圖像分類作爲監督預處理,和從全部圖像的輸入和ground truths(用於有監督訓練的訓練集的分類準確性)通過全卷積微調進行簡單且高效的學習。

Hariharan等人 [17] 和Gupta等人 [15] 也改編深度分類網到語義分割,但是也在混合proposal-classifier模型中這麼做了。這些方法通過採樣邊界框和region proposal進行微調了R-CNN系統 [12] ,用於檢測、語義分割和實例分割。這兩種辦法都不能進行端到端的學習。他們分別在PASCAL VOC和NYUDv2實現了最好的分割效果,所以在第5節中我們直接將我們的獨立的、端到端的FCN和他們的語義分割結果進行比較。

我們通過跨層和融合特徵來定義一種非線性的局部到整體的表述用來協調端到端。在現今的工作中Hariharan等人 [18] 也在語義分割的混合模型中使用了多層。 

3. 全卷積網絡

卷積網的每層數據是一個h*w*d的三維數組,其中h和w是空間維度,d是特徵或通道維數。第一層是像素尺寸爲h*w、顏色通道數爲d的圖像。高層中的locations和圖像中它們連通的locations相對應,被稱爲接收域。

卷積網是以平移不變形作爲基礎的。其基本組成部分(卷積,池化和激勵函數)作用在局部輸入域,只依賴相對空間座標。在特定層記X_ij爲在座標(i,j)的數據向量,在following layer有Y_ij,Y_ij的計算公式如下:

 

其中k爲卷積核尺寸,s是步長或下采樣因素,f_ks決定了層的類型:一個卷積的矩陣乘或者是平均池化,用於最大池的最大空間值或者是一個激勵函數的一個非線性elementwise,亦或是層的其他種類等等。當卷積核尺寸和步長遵從轉換規則,這個函數形式被表述爲如下形式:

                                     

 

當一個普通深度的網絡計算一個普通的非線性函數,一個網絡只有這種形式的層計算非線性濾波,我們稱之爲深度濾波或全卷積網絡。FCN理應可以計算任意尺寸的輸入併產生相應(或許重採樣)空間維度的輸出。一個實值損失函數有FCN定義了task。如果損失函數是一個最後一層的空間維度總和,

,它的梯度將是它的每層空間組成梯度總和。所以在全部圖像上的基於l的隨機梯度下降計算將和基於l'的梯度下降結果一樣,將最後一層的所有接收域作爲minibatch(分批處理)。在這些接收域重疊很大的情況下,前反饋計算和反向傳播計算整圖的疊層都比獨立的patch-by-patch有效的多。

我們接下來將解釋怎麼將分類網絡轉換到能產生粗輸出圖的全卷積網絡。對於像素級預測,我們需要連接這些粗略的輸出結果到像素。3.2節描述了一種技巧,快速掃描[13]因此被引入。我們通過將它解釋爲一個等價網絡修正而獲得了關於這個技巧的一些領悟。作爲一個高效的替換,我們引入了去卷積層用於上採樣見3.3節。在3.4節,我們考慮通過patchwise取樣訓練,便在4.3節證明我們的全圖式訓練更快且同樣有效。

3.1 改編分類用於dense prediction

典型的識別網絡,包括LeNet [23] , AlexNet [22] , 和一些後繼者 [34, 35] ,表面上採用的是固定尺寸的輸入產生了非空間的輸出。這些網絡的全連接層有確定的位數並丟棄空間座標。然而,這些全連接層也被看做是覆蓋全部輸入域的核卷積。需要將它們加入到可以採用任何尺寸輸入並輸出分類圖的全卷積網絡中。這種轉換如圖2所示。

                      

此外,當作爲結果的圖在特殊的輸入patches上等同於原始網絡的估計,計算是高度攤銷的在那些patches的重疊域上。例如,當AlexNet花費了1.2ms(在標準的GPU上)推算一個227*227圖像的分類得分,全卷積網絡花費22ms從一張500*500的圖像上產生一個10*10的輸出網格,比樸素法快了5倍多。

這些卷積化模式的空間輸出圖可以作爲一個很自然的選擇對於dense問題,比如語義分割。每個輸出單元ground truth可用,正推法和逆推法都是直截了當的,都利用了卷積的固有的計算效率(和可極大優化性)。對於AlexNet例子相應的逆推法的時間爲單張圖像時間2.4ms,全卷積的10*10輸出圖爲37ms,結果是相對於順推法速度加快了。

當我們將分類網絡重新解釋爲任意輸出尺寸的全卷積域輸出圖,輸出維數也通過下采樣顯著的減少了。分類網絡下采樣使filter保持小規模同時計算要求合理。這使全卷積式網絡的輸出結果變得粗糙,通過輸入尺寸因爲一個和輸出單元的接收域的像素步長等同的因素來降低它。

3.2 Shift-and stitch是濾波稀疏

dense prediction能從粗糙輸出中通過從輸入的平移版本中將輸出拼接起來獲得。如果輸出是因爲一個因子f降低採樣,平移輸入的x像素到左邊,y像素到下面,一旦對於每個(x,y)滿足0<=x,y<=f.處理f^2個輸入,並將輸出交錯以便預測和它們接收域的中心像素一致。

儘管單純地執行這種轉換增加了f^2的這個因素的代價,有一個非常有名的技巧用來高效的產生完全相同的結果 [13,32] ,這個在小波領域被稱爲多孔算法 [27] 。考慮一個層(卷積或者池化)中的輸入步長s,和後面的濾波權重爲f_ij的卷積層(忽略不相關的特徵維數)。設置更低層的輸入步長到l上採樣它的輸出影響因子爲s。然而,將原始的濾波和上採樣的輸出卷積並沒有產生和shift-and-stitch相同的結果,因爲原始的濾波只看得到(已經上採樣)輸入的簡化的部分。爲了重現這種技巧,通過擴大來稀疏濾波,如下:

如果s能除以i和j,除非i和j都是0。重現該技巧的全網輸出需要重複一層一層放大這個filter知道所有的下采樣被移除。(在練習中,處理上採樣輸入的下采樣版本可能會更高效。)

在網內減少二次採樣是一種折衷的做法:filter能看到更細節的信息,但是接受域更小而且需要花費很長時間計算。Shift-and -stitch技巧是另外一種折衷做法:輸出更加密集且沒有減小filter的接受域範圍,但是相對於原始的設計filter不能感受更精細的信息。

儘管我們已經利用這個技巧做了初步的實驗,但是我們沒有在我們的模型中使用它。正如在下一節中描述的,我們發現從上採樣中學習更有效和高效,特別是接下來要描述的結合了跨層融合。

3.3 上採樣是向後向卷積

另一種連接粗糙輸出到dense像素的方法就是插值法。比如,簡單的雙線性插值計算每個輸出y_ij來自只依賴輸入和輸出單元的相對位置的線性圖最近的四個輸入。

從某種意義上,伴隨因子f的上採樣是對步長爲1/f的分數式輸入的卷積操作。只要f是整數,一種自然的方法進行上採樣就是向後卷積(有時稱爲去卷積)伴隨輸出步長爲f。這樣的操作實現是不重要的,因爲它只是簡單的調換了卷積的順推法和逆推法。所以上採樣在網內通過計算像素級別的損失的反向傳播用於端到端的學習。

需要注意的是去卷積濾波在這種層面上不需要被固定不變(比如雙線性上採樣)但是可以被學習。一堆反褶積層和激勵函數甚至能學習一種非線性上採樣。在我們的實驗中,我們發現在網內的上採樣對於學習dense prediction是快速且有效的。我們最好的分割架構利用了這些層來學習上採樣用以微調預測,見4.2節。

3.4 patchwise訓練是一種損失採樣

在隨機優化中,梯度計算是由訓練分佈支配的。patchwise 訓練和全卷積訓練能被用來產生任意分佈,儘管他們相對的計算效率依賴於重疊域和minibatch的大小。在每一個由所有的單元接受域組成的批次在圖像的損失之下(或圖像的集合)整張圖像的全卷積訓練等同於patchwise訓練。當這種方式比patches的均勻取樣更加高效的同時,它減少了可能的批次數量。然而在一張圖片中隨機選擇patches可能更容易被重新找到。限制基於它的空間位置隨機取樣子集產生的損失(或者可以說應用輸入和輸出之間的DropConnect mask [39] )排除來自梯度計算的patches。

如果保存下來的patches依然有重要的重疊,全卷積計算依然將加速訓練。如果梯度在多重逆推法中被積累,batches能包含幾張圖的patches。patcheswise訓練中的採樣能糾正分類失調 [30,9,3] 和減輕密集空間相關性的影響[31,17]。在全卷積訓練中,分類平衡也能通過給損失賦權重實現,對損失採樣能被用來標識空間相關。

我們研究了4.3節中的伴有采樣的訓練,沒有發現對於dense prediction它有更快或是更好的收斂效果。全圖式訓練是有效且高效的。

4 分割架構

我們將ILSVRC分類應用到FCNs增大它們用於dense prediction結合網內上採樣和像素級損失。我們通過微調爲分割進行訓練。接下來我們增加了跨層來融合粗的、語義的和局部的表徵信息。這種跨層式架構能學習端到端來改善輸出的語義和空間預測。

爲此,我們訓練和在PASCAL VOC 2011分割挑戰賽[8]中驗證。我們訓練逐像素的多項式邏輯損失和驗證標準度量的在集合中平均像素交集還有基於所有分類上的平均接收,包括背景。這個訓練忽略了那些在groud truth中被遮蓋的像素(模糊不清或者很難辨認)。

 

 

 

 

 

 

 

 

 

 

注:不是每個可能的patch被包含在這種方法中,因爲最後一層單位的的接收域依賴一個固定的、步長大的網格。然而,對該圖像進行向左或向下隨機平移接近該步長個單位,從所有可能的patches 中隨機選取或許可以修復這個問題。

【原文圖】

4.1 從分類到dense FCN

我們在第3節中以卷積證明分類架構的。我們認爲拿下了ILSVRC12的AlexNet3架構 [22] 和VGG nets [34] 、GoogLeNet4 [35] 一樣在ILSVRC14上表現的格外好。我們選擇VGG 16層的網絡5,發現它和19層的網絡在這個任務(分類)上相當。對於GoogLeNet,我們僅僅使用的最後的損失層,通過丟棄了最後的平均池化層提高了表現能力。我們通過丟棄最後的分類切去每層網絡頭,然後將全連接層轉化成卷積層。我們附加了一個1*1的、通道維數爲21的卷積來預測每個PASCAL分類(包括背景)的得分在每個粗糙的輸出位置,後面緊跟一個去卷積層用來雙線性上採樣粗糙輸出到像素密集輸出如3.3.節中描述。表1將初步驗證結果和每層的基礎特性比較。我們發現最好的結果在以一個固定的學習速率得到(最少175個epochs)。

從分類到分割的微調對每層網絡有一個合理的預測。甚至最壞的模型也能達到大約75%的良好表現。內設分割的VGG網絡(FCN-VGG16)已經在val上平均IU 達到了56.0取得了最好的成績,相比於52.6 [17] 。在額外數據上的訓練將FCN-VGG16提高到59.4,將FCN-AlexNet提高到48.0。儘管相同的分類準確率,我們的用GoogLeNet並不能和VGG16的分割結果相比較。

 

 

4.2 結合“是什麼”和“在哪裏”

我們定義了一個新的全卷積網用於結合了特徵層級的分割並提高了輸出的空間精度,見圖3。當全卷積分類能被微調用於分割如4.1節所示,甚至在標準度量上得分更高,它們的輸出不是很粗糙(見圖4)。最後預測層的32像素步長限制了上採樣輸入的細節的尺寸。

我們提出增加結合了最後預測層和有更細小步長的更低層的跨層信息[1],將一個線劃拓撲結構轉變成DAG(有向無環圖),並且邊界將從更底層向前跳躍到更高(圖3)。因爲它們只能獲取更少的像素點,更精細的尺寸預測應該需要更少的層,所以從更淺的網中將它們輸出是有道理的。結合了精細層和粗糙層讓模型能做出遵從全局結構的局部預測。與Koenderick 和an Doorn [21]的jet類似,我們把這種非線性特徵層稱之爲deep jet。

我們首先將輸出步長分爲一半,通過一個16像素步長層預測。我們增加了一個1*1的卷積層在pool4的頂部來產生附加的類別預測。我們將輸出和預測融合在conv7(fc7的卷積化)的頂部以步長32計算,通過增加一個2×的上採樣層和預測求和(見圖3)。我們初始化這個2×上採樣到雙線性插值,但是允許參數能被學習,如3.3節所描述、最後,步長爲16的預測被上採樣回圖像,我們把這種網結構稱爲FCN-16s。FCN-16s用來學習端到端,能被最後的參數初始化。這種新的、在pool4上生效的參數是初始化爲0 的,所以這種網結構是以未變性的預測開始的。這種學習速率是以100倍的下降的。

學習這種跨層網絡能在3.0平均IU的有效集合上提高到62.4。圖4展示了在精細結構輸出上的提高。我們將這種融合學習和僅僅從pool4層上學習進行比較,結果表現糟糕,而且僅僅降低了學習速率而沒有增加跨層,導致了沒有提高輸出質量的沒有顯著提高表現。

我們繼續融合pool3和一個融合了pool4和conv7的2×上採樣預測,建立了FCN-8s的網絡結構。在平均IU上我們獲得了一個較小的附加提升到62.7,然後發現了一個在平滑度和輸出細節上的輕微提高。這時我們的融合提高已經得到了一個衰減回饋,既在強調了大規模正確的IU度量的層面上,也在提升顯著度上得到反映,如圖4所示,所以即使是更低層我們也不需要繼續融合。

其他方式精煉化減少池層的步長是最直接的一種得到精細預測的方法。然而這麼做對我們的基於VGG16的網絡帶來問題。設置pool5的步長到1,要求我們的卷積fc6核大小爲14*14來維持它的接收域大小。另外它們的計算代價,通過如此大的濾波器學習非常困難。我們嘗試用更小的濾波器重建pool5之上的層,但是並沒有得到有可比性的結果;一個可能的解釋是ILSVRC在更上層的初始化時非常重要的。

另一種獲得精細預測的方法就是利用3.2節中描述的shift-and-stitch技巧。在有限的實驗中,我們發現從這種方法的提升速率比融合層的方法花費的代價更高。

  

4.3 實驗框架

優化我們利用momentum訓練了GSD。我們利用了一個minibatch大小的20張圖片,然後固定學習速率爲10-3,10-4,和5-5用於FCN-AlexNet, FCN-VGG16,和FCN-GoogLeNet,通過各自的線性搜索選擇。我們利用了0.9的momentum,權值衰減在5-4或是2-4,而且對於偏差的學習速率加倍了,儘管我們發現訓練對單獨的學習速率敏感。我們零初始化類的得分層,隨機初始化既不能產生更好的表現也沒有更快的收斂。Dropout被包含在用於原始分類的網絡中。

微調我們通過反向傳播微調整個網絡的所有層。經過表2的比較,微調單獨的輸出分類表現只有全微調的70%。考慮到學習基礎分類網絡所需的時間,從scratch中訓練不是可行的。(注意VGG網絡的訓練是階段性的,當我們從全16層初始化後)。對於粗糙的FCN-32s,在單GPU上,微調要花費三天的時間,而且大約每隔一天就要更新到FCN-16s和FCN-8s版本。

                                      

 

 

 

 

 

 

 

 

 

 

 更多的訓練數據PASCAL VOC 2011分割訓練設置1112張圖片的標籤。Hariharan等人 [16] 爲一個更大的8498的PASCAL訓練圖片集合收集標籤,被用於訓練先前的先進系統,SDS [17] 。訓練數據將FCV-VGG16得分提高了3.4個百分點到59.4。

patch取樣正如3.4節中解釋的,我們的全圖有效地訓練每張圖片batches到常規的、大的、重疊的patches網格。相反的,先前工作隨機樣本patches在一整個數據集 [30,3,9,31,11] ,可能導致更高的方差batches,可能加速收斂 [24] 。我們通過空間採樣之前方式描述的損失研究這種折中,以1-p的概率做出獨立選擇來忽略每個最後層單元。爲了避免改變有效的批次尺寸,我們同時以因子1/p增加每批次圖像的數量。注意的是因爲卷積的效率,在足夠大的p值下,這種拒絕採樣的形式依舊比patchwose訓練要快(比如,根據3.1節的數量,最起碼p>0.2)圖5展示了這種收斂的採樣的效果。我們發現採樣在收斂速率上沒有很顯著的效果相對於全圖式訓練,但是由於每個每個批次都需要大量的圖像,很明顯的需要花費更多的時間。

分類平衡全卷積訓練能通過按權重或對損失採樣平衡類別。儘管我們的標籤有輕微的不平衡(大約3/4是背景),我們發現類別平衡不是必要的。dense prediction分數是通過網內的去卷積層上採樣到輸出維度。最後層去卷積濾波被固定爲雙線性插值,當中間採樣層是被初始化爲雙線性上採樣,然後學習。擴大我們嘗試通過隨機反射擴大訓練數據,"jettering"圖像通過將它們在每個方向上轉化成32像素(最粗糙預測的尺寸)。這並沒有明顯的改善。實現所有的模型都是在單NVIDIA Tesla K40c上用Caffe[20]訓練和學習。

5 結果

我們訓練FCN在語義分割和場景解析,研究了PASCAL VOC, NYUDv2和 SIFT Flow。儘管這些任務在以前主要是用在物體和區域上,我們都一律將它們視爲像素預測。我們在這些數據集中都進行測試用來評估我們的FCN跨層式架構,然後對於NYUDv2將它擴展成一個多模型的輸出,對於SIFT Flow則擴展成多任務的語義和集合標籤。

度量 我們從常見的語義分割和場景解析評估中提出四種度量,它們在像素準確率和在聯合的區域交叉上是不同的。令n_ij爲類別i的被預測爲類別j的像素數量,有n_ij個不同的類別,令

                                                

爲類別i的像素總的數量。我們將計算:

 PASCAL VOC 表3給出了我們的FCN-8s的在PASCAL VOC2011和2012測試集上的表現,然後將它和之前的先進方法SDS[17]和著名的R-CNN[12]進行比較。我們在平均IU上取得了最好的結果相對提升了20%。推理時間被降低了114×(只有卷積網,沒有proposals和微調)或者286×(全部都有)。

NVUDv2 [33]是一種通過利用Microsoft Kinect收集到的RGB-D數據集,含有已經被合併進Gupt等人[14]的40類別的語義分割任務的pixelwise標籤。我們報告結果基於標準分離的795張圖片和654張測試圖片。(注意:所有的模型選擇將展示在PASCAL 2011 val上)。表4給出了我們模型在一些變化上的表現。首先我們在RGB圖片上訓練我們的未經修改的粗糙模型(FCN-32s)。爲了添加深度信息,我們訓練模型升級到能採用4通道RGB-Ds的輸入(早期融合)。這提供了一點便利,也許是由於模型一直要傳播有意義的梯度的困難。緊隨Gupta等人[15]的成功,我們嘗試3維的HHA編碼深度,只在這個信息上(即深度)訓練網絡,和RGB與HHA的“後期融合”一樣來自這兩個網絡中的預測將在最後一層進行總結,結果的雙流網絡將進行端到端的學習。最後我們將這種後期融合網絡升級到16步長的版本。

 

 

 

 

 

 

 

 

 

 


SIFT Flow是一個帶有33語義範疇(“橋”、“山”、“太陽”)的像素標籤的2688張圖片的數據集和3個幾何分類(“水平”、“垂直”和“sky")一樣。一個FCN能自然學習共同代表權,即能同時預測標籤的兩種類別。我們學習FCN-16s的一種雙向版本結合語義和幾何預測層和損失。這種學習模型在這兩種任務上作爲獨立的訓練模型表現很好,同時它的學習和推理基本上和每個獨立的模型一樣快。表5的結果顯示,計算在標準分離的2488張訓練圖片和200張測試圖片上計算,在這兩個任務上都表現的極好。

6 結論

全卷積網絡是模型非常重要的部分,是現代化分類網絡中一個特殊的例子。認識到這個,將這些分類網絡擴展到分割並通過多分辨率的層結合顯著提高先進的技術,同時簡化和加速學習和推理。

鳴謝 這項工作有以下部分支持DARPA's MSEE和SMISC項目,NSF awards IIS-1427425, IIS-1212798, IIS-1116411, 還有NSF GRFP,Toyota, 還有 Berkeley Vision和Learning Center。我們非常感謝NVIDIA捐贈的GPU。我們感謝Bharath Hariharan 和Saurabh Gupta的建議和數據集工具;我們感謝Sergio Guadarrama 重構了Caffe裏的GoogLeNet;我們感謝Jitendra Malik的有幫助性評論;感謝Wei Liu指出了我們SIFT Flow平均IU計算上的一個問題和頻率權重平均IU公式的錯誤。

附錄A IU上界

在這篇論文中,我們已經在平均IU分割度量上取到了很好的效果,即使是粗糙的語義預測。爲了更好的理解這種度量還有關於這種方法的限制,我們在計算不同的規模上預測的表現的大致上界。我們通過下采樣ground truth圖像,然後再次對它們進行上採樣,來模擬可以獲得最好的結果,其伴隨着特定的下采樣因子。下表給出了不同下采樣因子在PASCAL2011 val的一個子集上的平均IU。pixel-perfect預測很顯然在取得最最好效果上不是必須的,而且,相反的,平均IU不是一個好的精細準確度的測量標準。

附錄B 更多的結果

我們將我們的FCN用於語義分割進行了更進一步的評估。PASCAL-Context [29] 提供了PASCAL VOC 2011的全部場景註釋。有超過400中不同的類別,我們遵循了 [29] 定義的被引用最頻繁的59種類任務。我們分別訓練和評估了訓練集和val集。在表6中,我們將聯合對象和Convolutional Feature Masking [4] 的stuff variation進行比較,後者是之前這項任務中最好的方法。FCN-8s在平均IU上得分爲37.8,相對提高了20%

變更記錄

論文的arXiv版本保持着最新的修正和其他的相關材料,接下來給出一份簡短的變更歷史。v2 添加了附錄A和附錄B。修正了PASCAL的有效數量(之前一些val圖像被包含在訓練中),SIFT Flow平均IU(用的不是很規範的度量),還有頻率權重平均IU公式的一個錯誤。添加了模型和更新時間數字來反映改進的實現的鏈接(公開可用的)。

參考文獻

[1] C. M. Bishop. Pattern recognition and machine learning,page 229. Springer-Verlag New York, 2006. 6

[2] J. Carreira, R. Caseiro, J. Batista, and C. Sminchisescu. Semantic segmentation with second-order pooling. In ECCV,2012. 9

[3] D. C. Ciresan, A. Giusti, L. M. Gambardella, and J. Schmidhuber.Deep neural networks segment neuronal membranes in electron microscopy images. In NIPS, pages 2852–2860,2012. 1, 2, 4, 7

[4] J. Dai, K. He, and J. Sun. Convolutional feature masking for joint object and stuff segmentation. arXiv preprint arXiv:1412.1283, 2014. 9

[5] J. Donahue, Y. Jia, O. Vinyals, J. Hoffman, N. Zhang,E. Tzeng, and T. Darrell. DeCAF: A deep convolutional activation feature for generic visual recognition. In ICML, 2014.1, 2

[6] D. Eigen, D. Krishnan, and R. Fergus. Restoring an image taken through a window covered with dirt or rain. In Computer Vision (ICCV), 2013 IEEE International Conference on, pages 633–640. IEEE, 2013. 2

[7] D. Eigen, C. Puhrsch, and R. Fergus. Depth map prediction from a single image using a multi-scale deep network. arXiv preprint arXiv:1406.2283, 2014. 2

[8] M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman. The PASCAL Visual Object Classes Challenge 2011 (VOC2011) Results. 

[9] C. Farabet, C. Couprie, L. Najman, and Y. LeCun. Learning hierarchical features for scene labeling. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2013. 1, 2, 4,7, 8

[10] P. Fischer, A. Dosovitskiy, and T. Brox. Descriptor matching with convolutional neural networks: a comparison to SIFT.CoRR, abs/1405.5769, 2014. 1

[11] Y. Ganin and V. Lempitsky. N4-fields: Neural network nearest neighbor fields for image transforms. In ACCV, 2014. 1,2, 7

[12] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In Computer Vision and Pattern Recognition,2014. 1, 2, 7

[13] A. Giusti, D. C. Cires¸an, J. Masci, L. M. Gambardella, and J. Schmidhuber. Fast image scanning with deep max-pooling convolutional neural networks. In ICIP, 2013. 3, 4

[14] S. Gupta, P. Arbelaez, and J. Malik. Perceptual organization and recognition of indoor scenes from RGB-D images. In CVPR, 2013. 8

[15] S. Gupta, R. Girshick, P. Arbelaez, and J. Malik. Learning rich features from RGB-D images for object detection and segmentation. In ECCV. Springer, 2014. 1, 2, 8

[16] B. Hariharan, P. Arbelaez, L. Bourdev, S. Maji, and J. Malik.Semantic contours from inverse detectors. In International Conference on Computer Vision (ICCV), 2011. 7

[17] B. Hariharan, P. Arbel´aez, R. Girshick, and J. Malik. Simultaneous detection and segmentation. In European Conference on Computer Vision (ECCV), 2014. 1, 2, 4, 5, 7, 8

[18] B. Hariharan, P. Arbel´aez, R. Girshick, and J. Malik. Hypercolumns for object segmentation and fine-grained localization.In Computer Vision and Pattern Recognition, 2015.2

[19] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition. In ECCV, 2014. 1, 2

[20] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick,S. Guadarrama, and T. Darrell. Caffe: Convolutional architecture for fast feature embedding. arXiv preprint

arXiv:1408.5093, 2014. 7

[21] J. J. Koenderink and A. J. van Doorn. Representation of local geometry in the visual system. Biological cybernetics,55(6):367–375, 1987. 6

[22] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In NIPS, 2012. 1, 2, 3, 5

[23] Y. LeCun, B. Boser, J. Denker, D. Henderson, R. E. Howard,W. Hubbard, and L. D. Jackel. Backpropagation applied to hand-written zip code recognition. In Neural Computation,1989. 2, 3

[24] Y. A. LeCun, L. Bottou, G. B. Orr, and K.-R. M¨uller. Efficient backprop. In Neural networks: Tricks of the trade,pages 9–48. Springer, 1998. 7

[25] C. Liu, J. Yuen, and A. Torralba. Sift flow: Dense correspondence across scenes and its applications. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 33(5):978–994, 2011.8

[26] J. Long, N. Zhang, and T. Darrell. Do convnets learn correspondence?In NIPS, 2014. 1

[27] S. Mallat. A wavelet tour of signal processing. Academic press, 2nd edition, 1999. 4

[28] O. Matan, C. J. Burges, Y. LeCun, and J. S. Denker. Multidigit recognition using a space displacement neural network.In NIPS, pages 488–495. Citeseer, 1991. 2

[29] R. Mottaghi, X. Chen, X. Liu, N.-G. Cho, S.-W. Lee, S. Fidler,R. Urtasun, and A. Yuille. The role of context for object detection and semantic segmentation in the wild. In Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on, pages 891–898. IEEE, 2014. 9

[30] F. Ning, D. Delhomme, Y. LeCun, F. Piano, L. Bottou, and P. E. Barbano. Toward automatic phenotyping of developing embryos from videos. Image Processing, IEEE Transactions on, 14(9):1360–1371, 2005. 1, 2, 4, 7

[31] P. H. Pinheiro and R. Collobert. Recurrent convolutional neural networks for scene labeling. In ICML, 2014. 1, 2,4, 7, 8

[32] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun. Overfeat: Integrated recognition, localization and detection using convolutional networks. In ICLR, 2014.1, 2, 4

[33] N. Silberman, D. Hoiem, P. Kohli, and R. Fergus. Indoor segmentation and support inference from rgbd images. In ECCV, 2012. 8

[34] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. CoRR,abs/1409.1556, 2014. 1, 2, 3, 5

[35] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A.Rabinovich. Going deeper with convolutions. CoRR, abs/1409.4842,2014. 1, 2, 3, 5

[36] J. Tighe and S. Lazebnik. Superparsing: scalable nonparametric image parsing with superpixels. In ECCV, pages 352–365. Springer, 2010. 8

[37] J. Tighe and S. Lazebnik. Finding things: Image parsing with regions and per-exemplar detectors. In CVPR, 2013. 8

[38] J. Tompson, A. Jain, Y. LeCun, and C. Bregler. Joint training of a convolutional network and a graphical model for human pose estimation. CoRR, abs/1406.2984, 2014. 2

[39] L. Wan, M. Zeiler, S. Zhang, Y. L. Cun, and R. Fergus. Regularization of neural networks using dropconnect. In Proceedings of the 30th International Conference on Machine Learning (ICML-13), pages 1058–1066, 2013. 4

[40] R. Wolf and J. C. Platt. Postal address block location using a convolutional locator network. Advances in Neural Information Processing Systems, pages 745–745, 1994. 2

[41] M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional networks. In Computer Vision–ECCV 2014,pages 818–833. Springer, 2014. 2

[42] N. Zhang, J. Donahue, R. Girshick, and T. Darrell. Partbased r-cnns for fine-grained category detection. In Computer Vision–ECCV 2014, pages 834–849. Springer, 2014.1


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章