SEMANTIC IMAGE SEGMENTATION WITH DEEP CONVOLUTIONAL NETS AND FULLY CONNECTED CRFS

使用深度卷積網絡和全連接的CRFs進行語義圖像的分割

CRF-條件隨機場  Liang-Chieh Chen 加州大學洛杉磯分校

摘要

深度卷積神經網絡(DCNNs)最近已經在高水平的視覺任務中展示出了最先進的表現,例如圖像分類和目標檢測。這項工作彙集了來自DCNNs和概率圖模型的方法,爲了解決像素級分類的任務(也叫作語義級圖像分割)。我們展示了深度卷積網絡(DCNNs)的最後一層不足夠能定位爲了精確的物體的分割。這是由於不變的屬性使得深度卷積網絡(DCNNs)對高水平的任務更好。我們克服了這種深度網絡的不良定位的屬性,通過結合了DCNN最後一層的反應和一個全連接的條件隨機場。定性地說,我們的DeepLab系統能夠以超出以往精度方法的水平去定位分段的邊界。定量地說,我們的方法在PASCAL VOC2012語義圖像分割任務中設定了一個新的先進的技術,使得在測試集上的精度達到了71.6%IOU。我們展示了這些結果如何能被有效的獲得:網絡再利用和一個來自小波團體的空洞算法的新穎的應用,可以在一個現代的GPU上以每秒8幀的的響應做稠密的計算。

1 簡介

自從LeCun等人以來,深度卷積神經網絡(DCNNs)已經成爲文檔識別的首選,但最近才成爲高級視覺的主流研究。在過去的兩年裏,DCNNs將計算機視覺系統的性能推向了各種高級問題的飆升,包括圖像分類、物體檢測、細粒度分類等等。在這些作品中一個常見的主題是,DCNNs訓練了一種端到端的方式結果要顯著地好於使用仔細策劃的表示,如SIFT或者HOG特徵等。  這種成功能被部分歸因於建立了DCNNs定位圖像變換的不變性,這也鞏固了其學習階級性提取數據的能力。然而這種不變性對於高級別的視覺任務是理想的,但他卻妨礙了低級別的任務,如姿態估計和語義分割,我們想要去精準定位而不是提取空間細節。

在DCNNs應用在圖像標記任務存在兩個技術障礙:信號下采樣和空間不敏感性(不變性)。第一個問題和在每個標準的DCNNs層重複組合最大池化和下采樣導致圖像的分辨率下降有關。相反,像Papandreou 等人一樣,我們採用了最初爲了有效計算而發展起來的非抽樣離散小波變換‘atrous’帶孔算法。這使得在方案中有效計算DCNN的反應,該方案比該問題的早期解決方案簡單得多。

第二個問題涉及到從一個分類器需要不變性去空間變換獲取以目標爲中心的決策,從而限制DCNN模型的空間精度。我們通過使用一個全連接的條件隨機場去促進我們模型捕獲細節的能力。條件隨機場已經被廣泛的應用到了語義分割領域,結合由多路分類器計算出的類得分,使用一個低水平的信息捕獲局部交叉像素、邊和超像素。儘管已經提出了更復雜的工作來模擬段的層次依賴性和高階依賴性,我們使用了他人提出來的成對的CRF來實現有效的計算和捕捉邊緣細節的能力,同時滿足長距離的依賴。這個模型被他人的工作中被展示了,其極大的提高了基於像素級分類器的性能,並且在我們的工作中,我們證明了他在和基於DCNNs的像素級分類器耦合時可以產生最先進的結果。

我們的Deeplab系統有三個主要的優勢,(1)速度:通過atrous算法的優勢,我們的密集DCNN操作爲8fps,然而全連接的CRF(條件隨機場)平均場推斷需要0.5s,(2)精度:我們在PASCAL語義分割挑戰中獲得了先進的結果,以7.2%的優勢比第二好的方法表現突出,(3)簡單性:我們的系統由兩個相當完善的模塊DCNN和CRFs組成。

2 相關工作

類似於Long等人,我們的系統工作旨在像素級的表現上。這和兩階段的方法正相反,他們現在是最常見的使用DCNNs的語義分割的方法,這種技術典型的使用一系列自底向上圖像分割和基於DCNN區域的分類,這使得系統承認前後端分割系統的潛在錯誤。例如,邊界框的提議和區域掩膜被應用到Girshick等中並作爲DCNN介紹形狀信息等分類進程的輸入。相似的,Mostajabi的作者依賴於超像素的表示。一個著名的非DCNN的先導是二階彙集方法,其也可以爲所分配區域的提案分配標籤。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章