EfficientPS論文翻譯-------第二部分:相關工作

EfficientPS論文翻譯-------第二部分:相關工作

全景分割是最近提出的一個場景理解問題(Kirillov et al, 2019),它統一了語義分割和實例分割的任務。對於這些子任務,已經提出了許多方法,但是隻有少數方法被引入來處理全景分割的連貫場景理解問題。該領域的大部分工作都是基於語義分割和實例分割的進展,因此我們首先回顧了最近提出的用於這些密切相關的子任務的方法,然後介紹了用於全景分割的最新方法。

語義分割:近年來,語義分割方法有了很大的發展。在本節中,我們將簡要回顧使用單目圖像來處理此任務的方法。過去十年的方法,通常使用隨機決策森林來處理這個任務。Shotton等(2008)在局部塊上使用隨機決策森林進行分類,而Plath等(2009)結合局部和全局特徵以及條件隨機域(CRFs)進行分割。與利用基於外觀的特徵相反,Brostow等人(2008)利用隨機森林的運動線索。Sturgess等人(2009)進一步將基於外觀的特徵與來自運動的結構特徵以及CRFs結合起來以提高性能。然而,從稠密深度圖中提取的三維特徵(Zhang et al, 2010)已被證明比組合特徵更有效。Kontschieder等人(2011)利用對象類的固有拓撲分佈來改進性能,而Kra¨henbu¨hl和Koltun(2011)則通過將CRFs與高斯邊緣配對來改進分割。然而,所有這些方法都採用了手工的特性,這些特性沒有封裝所有的高級和低級關係,從而限制了它們的表示能力。

基於卷積神經網絡(CNN)的方法在分類任務性能上的顯著提高,促使研究者們探索這種語義分割方法。最初,這些方法依賴於逐塊訓練,這嚴重限制了它們準確劃分對象邊界的能力。但是,它們的性能仍然比以前的手工方法好得多。由全卷積網絡(FCNs)引入的端到端語義分割學習方法的出現(Long et al, 2015)徹底改變了這一領域,FCNs仍然是當今最先進的架構的基礎。FCN是一種編碼-解碼器架構,其中編碼器基於VGG-16 (Simonyan and Zisserman, 2014)架構,將內積層替換爲卷積,解碼器由卷積層和轉置卷積層組成。隨後提出的SegNet (Bad- rinarayanan et al, 2015)架構引入反池層進行向上採樣,以替代置換卷積,而ParseNet (Liu et al, 2015)則直接對全局上下文進行建模,而不是僅僅依賴於網絡最大的接受域。

PSPNet (Zhao et al, 2017)體系結構強調多尺度特徵的重要性,並提出金字塔池化來學習不同尺度的特徵表示。Yu和Koltun(2015)引入了卷積,進一步利用語義分割網絡的多尺度特徵。隨後,Valada等(2017)提出了具有不同膨脹率的並行無張力卷積的多尺度殘差單元,在不增加參數數量的情況下,高效地學習整個網絡的多尺度特徵。Chen等(2017b)提出了Atrous Spatial Pyramid Pooling (ASPP)模塊,該模塊將具有不同擴張速率的多個並行Atrous convolutions的特徵圖連接起來,並形成一個全局池化層。ASPP通過聚合多尺度特徵和捕獲遠程上下文,大大提高了語義分割網絡的性能,但同時也大大增加了計算複雜度。因此,Chen等(2018a)提出了稠密預測單元(DPC), Valada等(2019)提出了高效的Atrous Spatial Pyramid Pooling (eASPP),它比ASPP產生更好的語義分割性能,而其效率是ASPP的10倍。Li等(2019a)認爲,全局特徵聚合往往會導致模式特徵變大,而小模式的過平滑區域則會導致性能次優。爲了緩解這一問題,作者提出了使用全局聚合模塊和局部分佈模塊的方法,從而實現在大模式區域和小模式區域之間的功能平衡。同時也提出了一些改進編碼器-解碼器結構中解碼器上採樣的工作。在(Chen et al ., 2018b)中,作者介紹了一種用於對象邊界細化的解碼器模塊。Tian等人(2019)提出了依賴於數據的上採樣,這解釋了標籤空間中的冗餘,而不是簡單的雙線性上採樣。

實例分割:一些初始方法使用CRFs (He和Gould, 2014b)和最小化整數二次關係(Tighe et al, 2014)。利用馬爾科夫隨機場(Zhang et al, 2016)和循環神經網絡(Romera-Paredes and Torr, 2016)的CNNs的方法;Ren和Zemel, 2017)也進行了探索。在本節中,我們主要討論基於cnn的實例分割方法。這些方法可以分爲基於proposal-free和proposal 方法。

proposal-free類別中的方法通常從產生的轉換獲得一致的掩碼。Bai和Urtasun(2017)使用CNNs生成圖像的能量圖,然後在單個能量級上進行切割,以獲得相應的對象實例。Liu等(2017)採用CNNs序列來解決子分組問題,以組合對象實例。一些方法可以使用局部一致性來估計實例(Dai et al, 2016),也可以將每個像素的方向編碼到對應的實例中心(Uhrig et al, 2016)。最近的SSAP (Gao et al, 2019)使用像素對關聯金字塔來計算兩個像素級屬於同一實例的概率。然而,他們實現了低於基於proposal的方法,這導致了他們的普及率下降。

在基於proposal的方法中,Hariharan等(2014)提出了一種將多尺度組合分組(Arbela’ez et al, 2014)的proposal作爲輸入到CNNs中進行特徵提取,然後使用SVM分類器進行區域分類的方法。隨後,Hariharan等(2015)提出了超列像素描述符,用於同時檢測和分割。在最近的工作中,DeepMask (Pin- heiro et al, 2015)使用圖像的一個path作爲輸入到CNN,生成一個類不可知的分割掩碼和包含對象的path的可能性。FCIS (Li et al, 2017)利用像素相對位置分類得到的位置敏感評分圖,共同進行分割和檢測。Dai等人(2016)提出了一種實例分割方法,使用三種網絡來區分實例、估計掩碼和對對象進行分類。Mask R-CNN (He et al, 2017)是當今最流行和廣泛使用的方法之一。它擴展了Faster R-CNN,例如通過添加一個對象分割分支與一個執行邊界框迴歸和分類的分支並行。最近,Liu等人(2018)提出了一種方法,通過增加自底向上的路徑增強來提高網絡早期層的對象定位能力,從而改進掩Mask R-CNN。隨後,BshapeNet (Kang and Kim, 2018)擴展了Faster R-CNN,添加了一個邊界框掩碼分支,提供額外的對象位置和座標信息,以提高對象檢測和實例分割的性能。

全景分割:Kirillov等(2019)通過引入全景分割恢復了語義分割和實例分割任務的統一。他們提出了一個基線模型,將PSPNet (Zhao et al, 2017)和Mask R-CNN (He et al, 2017)的輸出與一個簡單的後處理步驟相結合,其中每個模型獨立處理輸入。解決全景分割任務的方法大致可分爲兩類:自頂向下或基於proposal的方法和自底向上或proposal-free的方法。目前最先進的方法大多采用自頂向下的方法。de Geus等人(2018)提出了一種與共享主幹進行聯合訓練的方法,該主幹分支爲用於語義分割的Mask R-CNN和增強金字塔池化模塊。隨後,Li等人(2019b)引入了注意引導統一網絡,該網絡使用proposal注意模塊和掩碼注意模塊來更好地分割“stuff”類。上述所有方法都使用了與Kirillov et al(2019)類似的融合技術來融合“stuff”和“thing”的預測。

在自頂向下的全景分割結構中,兩個頭的預先判斷在它們之間有一個固有的重疊,導致掩碼重疊問題。爲了緩解這個問題,Li等人(2018b)提出了一個弱監督模型,其中“thing”類由包圍框進行弱監督,“stuff”類使用圖像級標記進行監督。而Liu等(2019)通過引入空間排序模塊解決了這一問題,Li等(2018a)提出了一種學習二進制掩碼的方法來明確約束‘stuff’和‘thing’的輸出分佈。隨後,UPSNet (Xiong et al ., 2019)引入了一個無參數全景頭來解決實例重疊的問題,並預測了一個額外的未知類。最近,AdaptIS (Sofiiuk et al, 2019)使用point proposal來生產實例掩碼,並與一個標準的語義分割通道聯合訓練來執行全景分割。相比之下,Porzi等人(2019)提出了一種全景分割的架構,該架構有效地集成了來自輕量級deeplb啓發模塊的上下文信息和來自FPN的多尺度特性。

與目前流行的基於proposal的方法相比,目前已經提出的proposal-free方法屈指可數。Deeper-Lab (Yang et al ., 2019)是引入的第一個自底向上的方法,它使用了一種編碼-解碼器拓撲方法,將對象中心與DeepLab語義分割結合起來,以實現與不可知類的實例分割。Cheng等人(2019)在Deeper-Lab的基礎上更進一步,爲每個子任務分支引入了雙aspp和雙解碼器結構。SSAP (Gao et al ., 2019)提出基於像素對親和金字塔對像素進行分組,並結合一種高效的圖形方法來生成實例,同時共同學習語義標記。

在這項工作中,我們採用自上而下的方法,因爲它具有出色的處理實例大規模變化的能力,這是分割“thing”類的關鍵要求。 我們提出了新穎的EfficientPS體系結構,該體系結構將我們提出的高效主幹網絡與雙向FPN相結合,以雙向方式學習豐富的多尺度特徵,並結合了一個新的語義頭,可以有效地捕獲精細特徵和上下文,以及 Mask R-CNN的變體,增加了可分離卷積作爲實例頭。 我們提出了一種新穎的全景融合模塊,動態地適應語義和實例頭信息的融合,以產生全景分割輸出。我們的架構在基準數據集上達到了最先進的結果,同時是最高效,最快速的全景分割架構。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章