Learning the Depths of Moving People by Watching Frozen People之論文詳解

Learning the Depths of Moving People by Watching Frozen People


論文鏈接:https://arxiv.org/abs/1904.11111

1、摘要

我們提出了一種在單目攝像機和場景中的人都可以自由移動的情況下預測密集深度的方法。用於從單目視頻恢復動態非剛性物體的深度的現有方法對物體的運動施加強烈假設並且可能僅恢復稀疏深度。在本文中,我們採用數據驅動的方法,從新的數據來源中學習人物深度先驗:成千上萬的人們模仿人體模型的互聯網視頻,即凍結在多樣化,自然的姿勢,而手持攝像機巡視現場。因爲人是靜止的,所以可以使用多視圖立體重建來生成訓練數據。在推理時,我們的方法使用來自場景的靜態區域的運動視差線索來指導深度預測。我們通過移動手持攝像機捕獲的複雜人物動作的真實世界序列展示了我們的方法,顯示了對前沿的單目深度預測方法的改進,並顯示了使用我們預測的深度產生的各種3D效果。

2、簡介

手持攝像機觀看動態場景是現代攝影中常見的場景。在這種情況下,恢復密集的幾何圖形是一項具有挑戰性的任務:移動對象違反了三維視覺中使用的極線約束,並且通常被視爲運動(SFM)和多視圖立體(MVS)方法中現有結構中的噪聲或異常值。然而,人類的深度感知並不容易被物體運動所愚弄,相反,即使物體和觀察者在運動,即使只用一隻眼睛觀察到這個場景,我們也能對物體的幾何結構和深度順序進行可行的解釋[11]。在這項工作中,我們在計算上朝着實現這種能力邁出了一步。

我們專注於從普通視頻預測準確,密集的深度的任務,其中攝像機和場景中的人都是自然移動的。我們關注人物有兩個原因:i)在許多應用中(例如,增強現實),人類構成場景中的顯著對象,以及ii)人類運動是有關節的,難以建模。通過採用數據驅動的方法,我們避免對人的形狀或變形進行明確地假設,而是從數據中學習這些先驗。

我們從哪裏獲得數據來訓練這種方法?生成高質量的合成數據,其中相機和場景中的人自然移動是非常具有挑戰性的。深度傳感器(例如,Kinect)可以提供有用的數據,但是這樣的數據通常限於室內環境並且在捕獲和處理中需要大量的手動工作。此外,很難聚集具有不同姿勢的不同年齡和性別的人。相反,我們從一個令人驚訝的來源獲取數據:YouTube視頻,其中人們模仿人體模型,即凍結在精心設計的自然姿勢,而手持相機巡視現場(圖2)。這些視頻包含我們新的MannequinChallenge(MC)數據集,我們計劃爲研究社區發佈這些數據集。因爲包括人在內的整個場景是靜止的,所以我們使用SfM和MVS估計相機姿勢和深度,並使用該衍生的3D數據作爲訓練的監督。

特別地,我們設計並訓練深度神經網絡,其採用輸入RGB圖像,人類區域的掩模和環境的初始深度(即,非人類區域),並在整個圖像上輸出密集的深度圖。環境和人物(見圖1)。注意,使用視頻的兩幀之間的運動視差來計算環境的初始深度,從而向網絡提供從單個幀不可獲得的信息。經過訓練,我們的模型可以處理任意相機和人體運動的自然視頻。

我們展示了我們的方法在各種真實世界互聯網視頻上的適用性,用手持相機拍攝,描繪了複雜的人類行爲,如步行,跑步和跳舞。我們的模型比最先進的單目深度預測和運動立體方法更準確地預測深度。我們還將進一步展示我們的深度貼圖如何用於產生各種3D效果,例如合成景深、深度感知繪製以及將虛擬對象插入具有正確遮擋的3D場景中。

總之,我們的貢獻是:i)一種用於深度預測的新數據源,由大量互聯網視頻組成,其中攝像機以自然姿勢圍繞“凍結”的人移動,以及生成精確深度圖和攝像機姿勢的方法; ii)一個基於深度網絡的模型設計和訓練,在同時攝像機運動和複雜的人體運動的挑戰情況下以預測密集的深度圖。

3. MannequinChallenge數據集

人體模型挑戰[42]是一種流行的視頻趨勢,其中人們通常以有趣的姿勢凍結 - 而相機操作員在場景中移動(例如,圖2)。自2016年底以來,已創建了數千個此類視頻並將其上傳到YouTube。如果人們在視頻期間保持靜止,我們可以假設場景是靜態的,並通過使用SfM和MVS算法處理它們來獲得準確的相機姿勢和深度信息。我們發現了大約2,000個可以進行此處理的候選視頻。這些視頻包含我們新的MannequinChallenge(MC)數據集,它涵蓋了與不同年齡段人羣的各種場景,自然地構成了不同的羣體配置。接下來,我們將詳細介紹如何處理視頻並獲取訓練數據。

估計相機姿勢。遵循類似於Zhou等人的方法[53]。我們使用ORB-SLAM2 [24]來識別每個視頻中的可跟蹤序列,並估計每個幀的初始相機姿勢。在此階段,我們處理視頻的低分辨率版本以提高效率,並將視野設置爲60度(現代手機相機的典型值)。然後,我們使用視覺SfM系統[32]以更高的分辨率重新處理每個序列,該系統確定了初始相機姿態和內部參數。該方法提取並匹配跨幀的特徵,然後執行整批調整優化。最後,使用Zhou等人的技術去除具有非平滑相機運動的序列 [53]。

使用MVS計算密集深度。一旦估計了每個剪輯的相機姿勢,我們就會重建每個場景的密集幾何體。特別是,我們使用最先進的MVS系統COLMAP恢復每幀密集深度圖[33]。

由於我們的數據包括涉及相機運動模糊,陰影,反射等的具有挑戰性的互聯網視頻,因此MVS估計的原始深度圖通常對於訓練目的來說太嘈雜。我們通過仔細的深度過濾機制來解決這個問題。我們首先使用[19]的深度改進方法過濾離羣深度。我們通過考慮MVS深度的一致性和從兩幀之間的運動視差獲得的深度來進一步去除錯誤的深度值。具體而言,對於每個幀,我們爲每個有效像素p計算歸一化誤差 在這裏插入圖片描述:

在這裏插入圖片描述其中DMVS是由MVS獲得的深度圖,Dpp是從兩幀運動視差計算的深度圖(參見4.1節)。刪除
在這裏插入圖片描述的深度值,我們根據經驗設置在這裏插入圖片描述
過濾剪輯。有幾個因素會使視頻剪輯不適合進行訓練。例如,人們可以在視頻中的某個點“解凍”(開始移動),或者視頻可以在後臺包含合成圖形元素。動態對象和合成背景不遵守多視圖幾何約束,因此被視爲異常值並由MVS過濾,可能留下很少的有效像素。因此,在我們的兩遍清潔階段之後,我們刪除<20%的像素具有有效MVS深度的幀。

此外,我們刪除估計的徑向失真係數在這裏插入圖片描述(指示超級相機)或估計焦距爲<=0.6或>=1.2(相機參數可能不準確)的幀。我們保留至少30幀長的序列,寬高比爲16:9,寬度爲>=1600像素。最後,我們手動檢查剩餘序列的軌跡和點雲,並消除明顯不正確的重建。刪除的圖像示例顯示在補充材料中。處理後,我們獲得4,690個序列,總共超過170K有效圖像深度對。我們將MC數據集分爲訓練,驗證和測試集,其中80:3:17。

4.深度預測模型

待續。。。。。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章