《A Late Fusion CNN for Digital Matting》論文閱讀

論文地址:A Late Fusion CNN for Digital Matting

1.摘要

本文研究了深度卷積神經網絡的結構,通過以單個RGB圖像作爲輸入來預測前景alpha遮罩。 我們的網絡是具有兩個解碼器分支的全卷積網絡,分別用於前景和背景分類。 然後,使用融合分支對兩個分類結果進行融合,這將產生alpha值作爲軟分割結果。 與網絡中的單個解碼器分支相比,此設計提供了更大的自由度,以便在訓練過程中獲得更好的alpha值。 該網絡無需用戶交互即可隱式生成trimap,這對於沒有數字遮罩專業知識的新手來說很容易使用。 實驗結果表明,我們的網絡可以爲各種類型的對象實現高質量的alpha遮罩,並且在人類圖像遮罩任務上優於基於CNN的最新圖像遮罩方法。

2.相關工作

在這個部分,我們簡要回顧了一下三種主要的數字摳圖方法:基於採樣的方法、基於類的方法以及基於深度學習的方法。
基於採樣的方法使用顏色信息來推斷圖片中過渡區域每個像素的alpha值。這類方法的關鍵就是要(1)收集採樣的像素,(2)建立前景與背景的顏色模型。這類方法利用自然圖像的統計信息來解決一些摳圖問題,並且當trimap標記的很好時,該方法能夠取得較好的結果。
基於類的方法,已經被證明了效果比基於採樣的方法要好。而要取得更好的alpha值結果,就要定義一個恰當的親和力分數。全局優化策略,如頻譜技術,是二進制優化技術的連續鬆弛,不能保證獲取的最優解。
基於深度學習的摳圖方法,直接從大量標註的數據中學習了一種輸入圖像到alpha的映射。
隨後作者介紹了一些其他作者的貢獻,並指出他們的優缺點。

3.本文方法

在這個部分,將介紹我們提出的方法細節。3.1是方法總覽,3.2和3.3詳細描述了模型結構和分割網絡與融合網絡的訓練損失,3.4給出了網絡的訓練細節。

3.1方法總覽

我們提出了一個新穎的端到端的神經網絡,輸入爲包含前景的圖片,輸出爲前景的alpha遮罩。如圖2所示,我們的方法核心就是利用神經網絡來預測三個圖:前景概率圖、背景概率圖、混合權重圖。輸出的alpha遮罩就是根據混合權重圖將前景概率圖與背景概率圖進行融合得到。網絡有三個需要連續訓練的部分:分割網絡的預訓練步驟,融合網絡的預訓練步驟以及最終的端到端聯合訓練步驟,其訓練損失被加在輸出alpha遮罩上。

在這裏插入圖片描述我們將嘗試通過下面的統合方程來預測alpha
在這裏插入圖片描述
這裏Fp和Bp分別代表某像素預測的前景與背景概率,βp爲融合網絡預測的混合權重。在我們的實現中,融合網絡將輸入圖像和特徵作爲預測前景和背景分類分支的邏輯迴歸之前的輸入。
從優化角度來看, 當滿足一下式子時,αp關於βp的導數將消失;
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-LDfx6TmH-1576548078847)(https://img-bl首先,如果前景/背景概率圖的預測準確(意味着滿足等式3),則融合網絡將專注於學習從前景到背景的過渡區域,這是解決消光問題的瓶頸。 其次,我們可以仔細設計損失函數,以鼓勵過渡區域內的Fp + Bp!=1(請參見第3.2節),這可以提供有用的梯度來訓練融合網絡。

3.2分割網絡

我們繼續描述分割網絡的體系結構及其訓練損失。特別地,訓練損失有利於實心前景和背景區域的概率爲0或1。它還嘗試預測過渡區域中真實Alpha值的上限和下限。
網絡結構:分割網絡由一個編碼器和兩個解碼器組成。編碼器從輸入圖像中提取語義特徵。這兩個解碼器共享相同的編碼結果,並分別預測前景和背景概率圖。具體來說,我們使用沒有全連接的層頭的DenseNet-201 作爲編碼器。每個分支由與五個編碼器塊相對應的五個解碼器塊組成,並且解碼器塊遵循[22]中的特徵金字塔網絡結構的設計。爲了增強像素級分割的結果,我們在[28]中使用了跳過連接,將編碼器塊中的多尺度特徵(在平均下采樣之前)與通過反捲積層上採樣的特徵連接起來。
訓練損失:訓練損失包含了L1損失、L2損失、交叉熵損失。特別的,我們通過根據alpha遮罩爲不同的像素設置不同的權重來控制網絡訓練過程的行爲。
我們首先測量預測概率值和基本真值之間的差:
在這裏插入圖片描述
差異選擇爲過渡區域內的L1,以便在那裏恢復alpha遮罩的細節,而其餘區域使用L2損失來懲罰可能的分割誤差。 我們發現此設置可以很好地在軟細分和硬細分之間取得平衡。
我們還將L1損失引入預測的alpha遮罩的梯度上,因爲在分類後去除過度模糊的alpha遮罩是有益的:
在這裏插入圖片描述
前景分類分支在像素p處的交叉熵(CE)損失由下式給出:
在這裏插入圖片描述
最紅的損失函數如下所示:
在這裏插入圖片描述
注意,交叉熵和過渡區域內部的L1損失的組合試圖提供比真實值更大的概率,因爲交叉熵損失會將概率拖至1。因此,可以將真實的alpha值放在方括號中。 由於等式中的1-B p,由兩個分支預測的兩個概率形成的區間。 2應該小於我們設置中的p。 這種設計使我們能夠在應用融合網絡後對精確的alpha值進行迴歸

此外,以不同的損失來訓練前景和背景分割分支有助於學習輸入圖像的不同特徵。 這些特徵有益於整體學習的結果。 如圖3和圖4所示,分段損失的這種設計確實導致了有意義的隱式三映射的生成。 此外,介於0和1之間的alpha值大多由兩個預測的概率括起來。
在這裏插入圖片描述在這裏插入圖片描述

3.3融合網絡

融合網絡的目標是在像素處輸出βp以融合前景和背景分類結果。
網絡結構:它是一個具有五層卷積層和一層sigmoid的全卷積網絡,用於計算混合權重βp(見圖2)。 網絡的輸入包括:(1)來自前景和背景解碼器最後一塊的特徵圖; (2)來自與輸入RGB圖像卷積的特徵。 我們根據實驗將卷積核的大小設置爲3×3,發現具有這種核大小的融合網絡可以更好地生成alpha遮罩的細節。
訓練損失:假設前景和背景解碼器已經爲實體像素提供了合理的分割結果,我們將訓練損失設計爲向過渡區域中的像素傾斜。 融合網絡的損失函數可以根據公式(2)0直接推導:
在這裏插入圖片描述

3.4訓練的細節

我們使用預先經過ImageNet-1K訓練的DenseNet-201網絡作爲我們的編碼器主幹。 首先對分割網絡進行15次迭代的預訓練。 在融合網絡的預訓練步驟中,我們凍結了分割階段,並單獨訓練了4次迭代的融合階段。 最後,我們對端到端的聯合網絡進行7次迭代訓練,這將融合結果的梯度反向傳播至分割和融合網絡,從而進一步減少了訓練損失。 在聯合訓練步驟中凍結所有批歸一化層,以節省內存空間。 循環學習率策略用於在整個訓練過程中加快收斂速度。 所有步驟的基本學習率爲5.0×10−4。 預訓練階段的最大學習速率爲1.5×10-3。 在聯合訓練步驟中,將最大學習速率設置爲較小的1.0×10-3。
在進行端到端聯合訓練以微調整個網絡時,我們還會使用特殊的損失。 損失是基於融合網絡的損失,同時增加了分割網絡的損失以避免過度擬合。 總體連接訓練損失描述如下:
在這裏插入圖片描述

實驗結果

我們分別在(1)人物肖像圖(2)自然圖像上進行測試
在人物肖像圖的實驗結果數據以及與其他算法的對比如下:

在這裏插入圖片描述在這裏插入圖片描述
在自然圖像上的測試結果以及其他算法對比如下:
在這裏插入圖片描述
在這裏插入圖片描述
以及一些來自互聯網上的分割結果:

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章