《Consistent Video Depth Estimation》閱讀筆記

《Consistent Video Depth Estimation》閱讀筆記

前言:

這篇paper主要是被效果圖驚豔了。
在這裏插入圖片描述
能保持多幀單目如此穩定的深度估計,實在是讓我心動不已。
直到後來把全文看完了…
機器之心這類介紹文章,如果感興趣最好還是細看全文…
此文章的工作確實很棒,但是速度慢到一定的地步–

For example, our test-time training step takes about 40 minutes for a video of 244 frames and 708 sampled flow pairs.

這個速度誰能頂得住。

簡單過一遍該工作的主要思路吧。
和上次review的paper差不多,都是將傳統方式深度學習的優勢結合起來。
傳統方式:精度高;但對於低紋理區域會產生黑洞(無特徵點的區域無法計算深度)
深度學習:速度快,且每點都能估計出深度;但是單目時,深度的尺度無法保證,原文的描述賊形象:

This causes a video reconstruction to be geometrically inconsistent: objects appear to be attached to the camera and “swimming” in world-space.

當場景變化和相機移動的時候,精度就會有很大 的影響。
因此,作者將這二者的優點結合起來,實現了一個即能處理單目,又能提供穩定精度的模型。

參考鏈接:

該工作在知乎很多人討論過了,比較詳細的是吳建明大佬的這篇,這位大佬博客的產量簡直恐怖。
3D深度估計

一. 論文簡介

1. 作者:

這項研究由來自華盛頓大學、弗吉尼亞理工學院和 Facebook 的研究者合作完成。
其中第一作者羅璇現爲華盛頓大學現實實驗室博士,她本科畢業於上海交通大學,導師爲盧宏濤教授,研究方向爲立體匹配,曾在新加坡國立大學跟隨顏水成鑽研深度學習。
在這裏插入圖片描述
第二作者 Jia-Bin Huang 爲弗吉尼亞理工學院助理教授,研究方向爲計算機視覺、計算機圖形學和機器學習。曾擔任 WACV 2018、CVPR 2019、ICCV 2019、BMVC 2019 和 BMVC 2020 會議的領域主席。

2. 期刊雜誌:

ACM Trans. Graph., Vol. 39, No. 4, Article . Publication date: July 2020.
目前該論文已被計算機圖形學頂級會議 SIGGRAPH 2020 接收
這倆好像不衝突?

3. 引用數:

目前還沒有?谷歌學術搜不到,谷歌也沒有引用數…

4. 論文背景,領域

用手機拍攝的視頻可以做 3D 重建嗎?

基於圖像序列進行 3D 場景重建在計算機視覺社區中已有幾十年的研究歷史。毋庸置疑,最簡單的 3D 重建捕捉方式就是利用智能手機手持拍攝,因爲這類相機很常見,還可以快速覆蓋很大的空間。如果可以利用手機拍攝的視頻實現非常密集、準確的重建,這類技術將變得非常有用。但要做到這一點困難重重。

除了重建系統都要處理的典型問題,如紋理單一區域、重複圖案和遮擋,基於手機拍攝的視頻實現重建還面臨着來自視頻本身的額外挑戰,如較高的噪聲水平、抖動和動態模糊、捲簾快門變形,以及移動對象(如人)的出現。

應用場景

如果實時性能解決,可以用在很多場景了。
作者用在了混合現實,效果拔羣。

5. 一句話介紹論文解決的問題:

看了她的摘要,寫的有點專業,第一眼並不能看出獨特的細節和用處。
嘗試用自己的話描述一下。
對於單目視頻流,輸入到一個卷積網絡,輸出一個深度圖,這個網絡已經預訓練過。
在新場景下,該方案還能用傳統三維重建的手段去獲得一個稀疏的深度圖,用這個稀疏的深度圖進一步優化網絡輸出值。
至於mask rcnn剔除動態物體,以及光流什麼的細節就先不管了。

二. 創新點和貢獻:

將傳統的三維重建和深度學習優點融合起來?
以及解決手機照片三維重建難的問題?
看到知乎上有人提出了一些負面的評價,我感覺代碼能夠開源,我能夠“白嫖”他們的工作,就是好工作/斜眼笑

三. 相關領域的概述(related work)

1. 單目深度估計

這個有很多paper,我review過的那些還沒寫過博客,反正大家一般都是用深度學習直接煉就是了,加點幾何約束什麼的。

2. 三維重建

這個可以參考這篇文章,講的雖然很詳細,但是我仍然沒看懂。只能有一個大概的概念:

  1. 尋找特徵點匹配
  2. 估計出相機內外參,從而計算特徵點的三維座標;
  3. 用重投影誤差去優化三維座標,從而獲得稀疏點雲信息;
  4. 多幀圖片,獲得密集三維信息。
    基本信息流就是如此:
    在這裏插入圖片描述

c. 作者的方案

直接copy吳建明大佬的文章內容:

如上圖 2 所示,該方法以單目視頻作爲輸入,目的是估計相機位姿以及每個視頻幀的深度和幾何一致性深度圖。「幾何一致性」不僅意味着深度圖不會隨着時間的推移而閃爍(flicker),還意味着所有的深度圖都是彼此一致的。也就是說,可以利用像素深度和相機位姿在幀與幀之間準確地投影這些像素。例如,一個靜態點的所有觀察結果都應該映射到世界座標系中一個單獨的普通 3D 點上,且沒有漂移(drift)。

隨意捕獲的輸入視頻爲深度重建增加了一些挑戰。由於它們大多是手持拍攝的,相機也沒有經過標定,因此經常出現動態模糊、捲簾快門變形等問題。簡陋的光照條件也會造成額外的噪聲及模糊。而且,這些視頻通常包含動態移動的對象(如人或動物),而很多重建系統是專爲靜態場景設計的,這就形成了一個大的衝突。

在有問題的場景部分,傳統的重建方法通常會生成「孔洞」(如果強制返回結果,會估計出噪聲非常大的深度)。但在這些方法對返回結果比較有信心的部分,它們通常會返回非常準確且一致的結果,因爲它們嚴重依賴幾何約束。

近期基於學習的方法彌補了這些缺陷,它們利用一種數據驅動的強大先驗來預測輸入圖像的合理深度。然而,對每一幀單獨應用這些方法會導致幾何不一致和短暫的閃爍。
本文作者提出的方法結合了以上兩種方法的優點。研究者利用了幾種現成的單圖像深度估計網絡,這些經過訓練的網絡可以合成一般彩色圖像的合理深度。他們利用從視頻中藉助傳統重建方法提取的幾何約束來微調網絡。因此,該網絡學會在特定視頻上生成具有幾何一致性的深度。
該方法包括以下兩個步驟:預處理和測試時訓練。
預處理

預處理是從視頻幀中提取幾何約束的基礎。
該研究首先使用開源軟件 COLMAP 執行傳統的 SfM 重建流程。
爲了改善對動態運動視頻的姿勢估計,研究者使用 Mask R-CNN 來獲取人物分割結果,並移除這些區域以獲得更可靠的關鍵點提取和匹配結果,因爲視頻中的動態運動主要來自於人物。這一步可以提供準確的內部和外部相機參數,以及稀疏點雲重建。
研究者還利用光流估計了視頻幀對之間的稠密對應關係。相機標定(camera calibration)和稠密對應共同構成了幾何損失。

主要的信息流(approach)

在這裏插入圖片描述
測試時訓練
在這一階段,研究者微調預訓練深度估計網絡,使其生成對特定輸入視頻更具幾何一致性的深度。
在每次迭代中,該方法使用當前的網絡參數採樣一對視頻幀並估計其深度圖。然後對比稠密一致性和利用當前深度估計結果得到的重投影,從而驗證深度圖是否具備幾何一致性。
最後,研究者評估了兩種幾何損失:空間損失和視差損失,並將誤差進行反向傳播,以更新網絡權重(權重對所有幀共享)。
用這種方式迭代地採樣很多對視頻幀,損失得到降低,網絡學會估計具備幾何一致性的深度,同時能夠在約束較少的部分提供合理的正則化。
該方法得到的改進通常很大,最終深度圖具備幾何一致性,與整個視頻的時序一致,且能夠準確勾勒出清晰的遮蔽邊界,即使是對於運動物體也是如此。有了計算得到的深度之後,研究者就可以爲遮擋效應(occlusion effect)提供合適的深度邊界,讓真實場景的幾何與虛擬事物進行交互。

limitations:

作者在論文中提到了該方法的四項侷限之處,分別是位姿、動態運動、光流和速度。

位姿

該方法目前依賴 COLMAP,來基於單目視頻估計相機位姿。而在難度較大的場景中,如相機平移有限及動態模糊的情況下,COLMAP 可能無法生成靠譜的稀疏重建結果和相機位姿估計。

較大的位姿誤差也會對該方法的輸出結果造成極大的負面影響,因此這限制了該方法在此類視頻中的應用。

將基於學習的位姿估計和該研究提出的方法結合起來,或許是一個不錯的研究方向。

動態運動

該方法支持包含溫和運動的視頻,但如果運動較爲激烈則該方法會出現問題。

光流

該方法依賴 FlowNet2 來構建幾何約束。使用前後向傳播一致性檢查並過濾掉不可靠的光流,但這也可能出現錯誤。這時該方法無法輸出正確的深度。研究者嘗試使用稀疏光流,但效果並不好。

速度

該方法利用視頻中所有幀提取幾何約束,因此不支持在線處理。例如,對於一個包含 244 幀、708 個採樣光流對的視頻來說,該方法的測試時訓練步耗時約 40 分鐘。

總結:

我目前還不清楚時間到底花在了哪兒。如果時間能夠實時,且如此效果,簡直太厲害了。
對於一些對比實驗,這次就不看了,因爲沒有代碼的paper看了也沒啥用,而且目前也用不上…

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章