基於監督學習+自監督學習的智能摳圖,精確到頭髮絲 | CVPR2020

點擊上方AI算法與圖像處理”,選擇加"星標"或“置頂”

重磅乾貨,第一時間送達

因爲現在換了個公司,996,而且住的比較遠,平時都是7點多起牀晚上十點半左右到家,所以每天都好累,但是我還是會努力更新原創!如果內容對你有所幫助歡迎分享

華盛頓大學的研究者最近發表的論文在CVPR 2020提供了一個新的和簡單的方法,以取代你的背景在廣泛的應用。你可以在家裏做這些日常設置,使用固定或手持相機。我們的方法也是最先進的,給出的輸出可比專業的結果。在本文中,我們將介紹該方法的動機、技術細節和使用技巧。你也可以簽出我們的項目頁面和代碼庫。

論文:https://arxiv.org/pdf/2004.00626.pdf

項目:https://github.com/senguptaumd/Background-Matting

What is Matting?

Matting是將圖像分離爲前景和背景的過程,這樣你就可以將前景合成到新的背景上。這是綠屏效應背後的關鍵技術,廣泛應用於視頻製作、圖形和消費應用。爲了建模這個問題,我們將捕獲的圖像中的每個像素表示爲前景和背景的組合:

我們的問題是解決給定的圖像(C)每個像素的前景(F),背景(B)和透明度(alpha).顯然這是高度不確定的,因爲圖像有RGB通道,這需要從3個觀察值解決7個未知。

The Problem with Segmentation

一種可能的方法是使用分割分離前景進行合成。儘管分割在近年來取得了巨大的進步,但它並不能解決所有的問題。分割給每個像素分配一個二進制(0,1)標籤來代表前景和背景,而不是解決一個連續的alpha值。這種簡化的效果如下例所示:

邊緣的區域,特別是頭髮,有一個真正的alpha值在0到1之間。因此,分割的二進位性質創造了一個苛刻的邊界周圍的前景,留下可見的人工的痕跡。解決了部分透明度和前景顏色允許更好的合成在第二幀。

Using A Casually Captured Background

由於matting是一個比segmentation更難的問題,額外的信息經常被用來解決這個無約束的問題,即使是在使用深度學習的時候。

許多現有的方法使用一個 trimap,或已知前景、背景和未知區域的手工標註的映射。雖然這對於一幅圖像是可行的,但是標註視頻是非常耗時的,並不是這個問題的一個可行的研究方向。

我們選擇使用捕獲的背景作爲真實背景的估計。這使得前景和alpha值更容易解決。我們稱之爲“隨意捕捉”的背景,因爲它可以包含輕微的運動,顏色差異,輕微的陰影,或與前景相似的顏色。

上圖顯示了我們可以輕易地對真實背景作出粗略估計。當人離開場景時,我們捕捉他們身後的背景。下圖顯示了它的樣子:

注意這張圖片是如何具有挑戰性的,因爲它有一個非常相似的背景和前景顏色(特別是周圍的頭髮)。它也是用手持電話錄製的,包含了輕微的背景運動。

“我們稱之爲隨意捕捉的背景,因爲它可以包含輕微的運動,顏色差異,輕微的陰影,或與前景相似的顏色。”

Tips for Capturing

雖然我們的方法適用於一些背景擾動,但當背景是恆定的,在室內環境中效果最好。例如,它在被攝主體投射的高度明顯的陰影、移動的背景(例如水、汽車、樹木)或大曝光變化的情況下不起作用。

我們還建議在視頻結束時讓人離開場景,然後從連續的視頻中拉出畫面來捕捉背景。當你從視頻模式切換到照片模式時,許多手機都有不同的變焦和曝光設置。當你用手機拍攝時,你也應該啓用自動曝光鎖定。

捕捉技巧的總結:

  1. 選擇你能找到的最恆定的背景。

  2. 不要站得離背景太近,這樣你就不會投下陰影。

  3. 啓用手機的自動曝光和自動對焦鎖定功能。

這種方法和背景減法一樣嗎?

另一個自然的問題是這是否像背景減法。首先,如果在合成中使用任何背景都很容易,那麼電影行業就不會花費數千美元在綠色屏幕上。

此外,背景減法不能解決部分alpha值,給予相同的硬邊緣分割。當有相似的前景和背景色或背景中的任何運動時,它也不能很好地工作。

網絡細節

該網絡由一個監督的步驟和一個非監督的細化組成。我們將在這裏簡要地總結它們,但要了解詳細信息,請參閱論文。

監督式學習

爲了首先訓練網絡,我們使用Adobe composiated -1k數據集,其中包含450個仔細標註的ground truth alpha mattes。我們以一種完全監督的方式訓練網絡,每個像素的損失輸出。

請注意,我們有幾個輸入,包括圖像、背景、軟分割和時間運動信息。我們的新上下文切換塊( Context Switching Block )也確保了對不良輸入的魯棒性。

Unsupervised Refinement with GANs

監督學習的問題是adobe數據集只包含450個ground truth輸出,這遠遠不足以訓練一個好的網絡。獲得更多的數據是極其困難的,因爲它涉及到手工註釋圖像的alpha啞光。

爲了解決這個問題,我們使用GAN細化步驟。我們從被監督的網絡中獲取輸出的alpha啞光,並將其合成到一個新的背景中。然後鑑別器試着辨別這是真實的還是虛假的圖像。作爲迴應,生成器學會更新alpha啞光,從而得到儘可能真實的合成,以欺騙鑑別器。

這裏重要的部分是,我們不需要任何帶標記的訓練數據。該鑑別器是用成千上萬的真實圖像進行訓練的,這些圖像很容易獲得。

在數據上使用GAN訓練

GAN的另一個有用之處是,您可以在自己的映像上對生成器進行訓練,從而在測試時改進結果。假設您運行網絡,但輸出不是很好。爲了更好地欺騙判別器,你可以更新精確數據上生成器的權重。這將與您的數據過度匹配,但將改善您提供的圖像的結果。

未來的工作

雖然我們看到的結果是相當好的,我們繼續使這種方法更準確和容易使用。

特別地,我們想讓這個方法對背景運動,攝像機運動,陰影等情況更加健壯。我們也在尋找方法,使這種方法在實時工作和較少的計算資源能力。這可以在視頻流或移動應用等領域實現各種各樣的用例。

參考

[1] S. Sengupta, V. Jayaram, B. Curless, S. Seitz, and I. Kemelmacher-Shlizerman, Background Matting: The World is Your Green Screen (2020), CVPR 2020

[2] L.C. Chen, Y. Zhu, G. Papandreou, F. Schroff, and H. Adam, Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation (2018), ECCV 2018

[3] Y.Y. Chuang, B. Curless, D. H. Salesin, and R. Szeliski, A Bayesian Approach to Digital Matting (2001), CVPR 2001

[4] Q. Hou and F. Liu. Context-Aware Image Matting for Simultaneous Foreground and Alpha Estimation (2019), ICCV 2019

[5] H. Lu, Y. Dai, C. Shen, and S. Xu, Indices Matter: Learning to Index for Deep Image Matting (2019), ICCV 2019

最後的最後求一波分享!
回覆“TF2”,獲取
《Scikit-Learn、Keras 與 TensorFlow 機器學習實用指南》第二版 PDF
end

個人微信
請註明:地區+學校/企業+研究方向+暱稱
如果沒有備註不拉羣!



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章