NeurIPS 2019語義分割相關論文綜述

Neural Diffusion Distance for Image Segmentation

摘要:擴散距離是一種考慮全局數據結構的,用於測量圖上節點之間距離的頻譜方法。在這項工作中,我們提出了一種基於光譜近似分解的圖譜擴散網絡,用於計算圖上的擴散距離。該網絡是可微分的深度架構,由特徵提取和擴散距離模塊組成,用於通過端到端訓練來計算圖像上的擴散距離。我們設計了低分辨率內核匹配損失和高分辨率段匹配損失,以強制網絡輸出與人類標記的圖像段一致。爲了計算高分辨率擴散距離或分割蒙版,我們設計了一種基於特徵注意插值的上採樣策略,該特性可在訓練spec-diff-net時學習。藉助學習的擴散距離,我們提出了一種優於以前的分割方法的分層圖像分割方法。此外,利用擴散距離設計了一個弱監督語義分割網絡,並在PASCAL VOC 2012分割數據集上取得了可喜的成果。

 論文提出了一種新的深度結構——spec-diff-net來計算圖像上的神經擴散距離。該網絡由一個特徵提取模塊和一個擴散距離模塊組成,該模塊包括端到端可訓練系統中概率轉移矩陣、譜分解和擴散距離的計算。爲了使譜分解的計算高效且可微,論文使用同步迭代來近似過渡矩陣的特徵分解。由於神經擴散距離是在比全像分辨率低的特徵網格上計算的,我們提出了一種可學習的散斑網絡上採樣策略,利用特徵注意插值來插值擴散距離或分割映射。

圖1:散斑網由特徵提取模塊和擴散距離模塊組成,依次計算過渡矩陣、近似譜分解和擴散距離。利用HR段匹配損失和LR核匹配損失對其進行訓練。

我們將神經擴散距離應用於兩個分割任務。層次圖像分割和弱監督語義分割。對於第一個任務,我們設計了一個基於NDD的層次聚類算法,實現了更高的分割精度。對於第二個任務,我們以NDD爲指導,提出了一個使用區域特徵池進行弱監督語義分割的注意模塊。在PASCAL VOC 2012分詞數據集[23]上,在弱監督設置下實現了最先進的語義分詞結果。我們的貢獻可以總結如下。首先,提出了一種新的神經擴散距離及其深層結構。其次,利用神經擴散距離,我們設計了一種新的分層聚類方法和一種弱監督語義分割方法,實現了最先進的圖像分割性能。另外,雖然我們在圖像上學習了NDD,但它也有可能應用於圖像以外的一般數據圖,在未來值得研究。

貢獻:NDD基於端到端可訓練的深度架構,具有學習特性和超參數。與(deep)光譜聚類相比,在測量圖像像素的親和力時,考慮全局圖像結構,建立了基於NDD的分割方法。如實驗所示,NDD爲圖像分割和弱監督語義分割提供了最新的結果。


Region Mutual Information Loss for Semantic Segmentation

摘要:語義分割是計算機視覺中的一個基本問題。實際上,它被視爲按像素分類的問題,並且大多數分割模型都將按像素損失作爲其優化標準。但是,逐像素損失會忽略圖像中像素之間的依賴性。已經研究了幾種利用像素之間的關係的方法,例如,條件隨機場(CRF)和基於像素親和力的方法。然而,這些方法通常需要額外的模型分支,大量的額外內存或更多的推理時間。在本文中,我們開發了區域互信息(RMI)損失,以更簡單有效地對像素之間的依賴關係進行建模。與將像素視爲獨立樣本的逐像素損失相反,RMI使用一個像素及其相鄰像素來表示此像素。然後,對於圖像中的每個像素,我們得到一個多維點,該多維點對像素之間的關係進行編碼,然後將圖像轉換爲這些高維點的多維分佈。因此,預測和地面實況可以通過最大化多維分佈之間的互信息(MI)來實現高階一致性。此外,由於很難計算出MI的實際值,因此我們推導出了MI的下界,並最大化下界以最大化MI的實際值。 RMI在訓練階段僅需要一些額外的計算資源,並且在測試過程中沒有任何開銷。實驗結果表明,RMI可以在PASCAL VOC 2012和CamVid數據集上實現性能的實質性和持續性的提高。

本文的實質是解決像素之間依賴性問題,儘管以往的一些方法也針對這一問題提出了一些解決辦法,但是主要是在模塊上進行優化,本文不需要其他的計算模塊就可以緩解像素依賴性問題。

一個圖像區域及其對應的多維點。使用相同的策略,可以將圖像轉換爲許多高維點的多維分佈,這些高維點編碼像素之間的關係。

作者認爲:最小化y和p之間的交叉熵就等於最小化它們的相對熵(Kullback-Leibler (KL) divergence)

(1)表明,softmax交叉熵損失是逐像素計算的。它忽略了像素之間的關係。然而,圖像中像素之間存在着強烈的依賴關係,這些依賴關係承載着關於對象結構的重要信息。因此,當模型的視覺證據較弱或屬於空間結構較小的對象時,經過像素損失訓練的模型可能難以識別像素,模型的性能可能受到限制。

鑑於以上幾點,本文提出了一種基於區域互信息損失的語義分割方法,以更簡單、更有效地對像素之間的關係進行建模。工作靈感來自於區域互信息醫學圖像註冊。RMI的思想是直觀的,如圖1所示,給定一個像素,如果我們使用這個像素和它的8個鄰居來表示這個像素,我們得到一個9維(9-D)點。對於一個圖像,我們可以得到許多9-D點,並將圖像轉換成這些9-D點的多維(多元)分佈。每個9-D點也表示一個小的3x3個區域,像素之間的關係編碼在這些9-D點中。

當得到了ground truth的兩個多維分佈和分割模型給出的預測後,我們的目的是最大化它們的相似性。互信息(MI)是隨機變量獨立性的一種自然的信息論度量。在醫學圖像配準領域,它也被廣泛用作相似性測度。因此,與僅使用像素損失相比,通過最大化預測和地面真實之間的多維分佈的MI,可以獲得更高的階一致性。然而,圖像中的像素是相互依賴的,這使得圖像的多維分佈難以分析。這意味着計算這兩個待定分佈之間的MI的實際值變得不可行。所以我們得到MI的一個下界,然後我們可以最大化這個下界最大化兩個分佈之間的MI的實際值。

在構造預測和地面真值的多維分佈之前,採用了向下採樣策略。目標是減少內存消耗,因此RMI在訓練期間只需要一些額外的計算資源。通過這種方式,它可以毫不費力地整合到任何現有的分割框架中,而不需要對基本模型進行任何更改。RMI在測試期間也沒有額外的推理步驟。

有興趣的可以看一下源碼(公佈代碼應該OK的,手動狗頭)

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章