CVPR最佳論文得主吳尚哲新作：從視頻中學習可變形3D對象，無需顯式監督

原創

2021-07-29 21:15

點擊下方“AI算法與圖像處理”，一起進步！
重磅乾貨，第一時間送達

來源：機器之心編譯

編輯：陳、杜偉

在 CVPR 2020 最佳論文中，牛津大學 VGG 團隊的博士生吳尚哲（Shangzhe Wu）等人提出了一種基於原始單目圖像學習 3D 可變形對象類別的方法，且無需外部監督。近日，該團隊又提出了通過單目視頻的時間對應關係來學習可變形 3D 對象，並且可用於野外環境。

從 2D 圖像中學習 3D 可變形對象是一個極其困難的問題，傳統方法依賴於顯式監督，如關鍵點和模板。但是，當這些對象不在實驗室等可控環境中時，傳統方法會限制它們的適用性。

有沒有可以改進之處呢？近日，牛津大學 VGG 團隊的研究者提出了一種全新方法 DOVE（Deformable Objects from Videos），該方法可以在沒有顯式關鍵點或模板形狀的情況下高效地學習可變形 3D 對象。具體來講， DOVE 方法基於自然地提供跨時間對應關係的單目視頻（monocular video），並且可以應用於「野外」環境 。

論文地址：https://arxiv.org/pdf/2107.10844.pdf
論文主頁：https://dove3d.github.io/

DOVE 方法僅使用鳥類的 2D 圖像即可預測 3D 標準形狀、變形、視點和紋理，因而能夠更容易地繪製鳥類動作的動畫或操控它們的透視圖。研究者提供了一些交互演示動畫：

長期以來對象的動態 3D 重建一直是科學家與工程師的目標。現在，DOVE 方法通過其他視頻中相機不同角度拍攝的不同視圖之間的對應關係，即可從一個視頻片段中自動重建一個對象的形狀。想象一下，如果幾分鐘的鏡頭顯示兩隻鳥停在樹上，相機的所有鏡頭都是靜止的。這時這些信息作爲輸入數據輸入到模型中，該模型將具有足夠的預測性，能夠逐幀模擬下一步會發生些什麼，而無需任何額外的訓練或指令。

不同於現有方法的是， DOVE 方法不需要關鍵點、視點或模板形狀等顯式監督，僅依賴視頻中固有的時態信息即可學習更多關於對象的幾何形狀 。

DOVE 方法也能夠高效地創建和繪製對象 3D 表示的動畫。DOVE 算法甚至可以在沒有關鍵點或模板形狀的情況下從 YouTube 視頻中學習。在給定目標檢測和光流預處理模型的正確數據時，該系統可以比以前更快地進行訓練。

方法介紹

該研究的目標是從視頻剪輯集合中學習可變形對象類別的 3D 形狀。具體來說，給定一個用固定相機捕獲的對象短視頻剪輯數據集，以此來訓練一個重建模型，該模型將對象的單個圖像作爲輸入，並預測其 3D 形狀、紋理和 articulated 3D 姿態。下圖 2 爲訓練 pipeline。

圖片 - 幾何自動編碼

重建模型輸入來自視頻序列的單幀 I ∈ R ^3×H×W，使用三個網絡（分別爲 f_S、f_T 和 f_P）預測對象的 articulated 3D 形狀、紋理和剛性姿態。然後重新組合這些信息以生成（渲染）對象的圖像，可以將其與輸入視頻幀進行比較以進行監督。

形狀由具有固定連接性和可變頂點位置 V ∈ R^3×K 的三角網格給出。該研究分兩步獲取 V ，來區分特定於實例的形狀變化和特定於幀的關節。

Articulated 形狀模型

第一步是在規範的「靜止姿態」中重建一個特定視頻對象實例的形狀 V_ins。這解釋了不同的對象實例（例如不同的鳥）具有相似但不同形狀的事實。形狀由下式給出：

其中，V_cat 是可學習的特定類模板， ∆V_ins 爲特定於實例的形狀變化。

從視頻中學習

該研究的目標是從視頻序列集合

中學習重建模型，其中每個序列 S_i 包含幀

，其中，i 爲序列索引，t 爲幀索引（時間）。這些序列是通過使用實例分割技術 Mask R-CNN 對視頻進行預處理獲得的。

實驗結果

數據集包括大量的鳥類短視頻片段，這些視頻片段來自 YouTube。Mask R-CNN 用來檢測和分割鳥類實例，之後視頻被自動分割成片段，每個片段包含一隻鳥，圖片大小調整爲 128 × 128 用於訓練。

下圖 3 爲單幀重建結果，注意在推理過程中不在需要視頻。該研究不需要顯示 3D、視點或者關鍵點信息進行監督，僅從單目訓練視頻中重建準確的 3D 形狀。

該研究還與 SOTA 模型進行了比較，模型包括 CMR、U-CMR、UMR、VMR，結果如表 2 所示，由結果可得，該研究提出的模型實現了更好的形狀重建和時間一致性。

下圖 4 展示了不同方法之間的定性比較。在以往的方法中，CMR 方法生成了最具魯棒的重建結果，這得益於它依賴關鍵點監督，但對於一些挑戰性的姿態依然表現不佳，如主視圖等。DOVE 在沒有使用關鍵點或模板監督的情況下重建了準確的形狀和姿態。並且與其他方法相比，該方法獲得的重建結果具有更高的時序一致性。需要注意，研究者的模型是在 128 × 128 圖像上訓練的，其他方法在 256 × 256 圖像上訓練（除了 U-CMR），並且從輸入圖像中採樣紋理，因此紋理質量存在差異。

努力分享優質的計算機視覺相關內容，歡迎關注：

  
     
     
     
   
      
      
      個人微信（如果沒有備註不拉羣！）
  
     
     
     
  
     
     
     
   
      
      
      請註明：
   
      
      
      地區+學校/企業+研究方向+暱稱
  
     
     
     
  
     
     
     
   
      
      
      

  
     
     
     


下載1：何愷明頂會分享

在「AI算法與圖像處理」公衆號後臺回覆：何愷明，即可下載。總共有6份PDF，涉及 ResNet、Mask RCNN等經典工作的總結分析

下載2：終身受益的編程指南：Google編程風格指南

在「AI算法與圖像處理」公衆號後臺回覆：c++，即可下載。歷經十年考驗，最權威的編程規範！


   
   
   
 
    
    
    下載3 CVPR2021

   
   
   

   
   
   
 
    
    
    


   
   
   

   
   
   
 
    
    
    在「AI算法與圖像處理」公衆號後臺回覆：
 
    
    
    CVPR
 
    
    
    ，即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文

點亮，告訴大家你也在看

本文分享自微信公衆號 - AI算法與圖像處理（AI_study）。
如有侵權，請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”，歡迎正在閱讀的你也加入，一起分享。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

CVPR最佳論文得主吳尚哲新作：從視頻中學習可變形3D對象，無需顯式監督

探究職業發展的關鍵：能力模型解讀

如何在低代碼平臺中引用 JavaScript ？

高效率使用windows

智能決策新時代：可視化大屏是否能夠超越傳統白板？

解密Prompt系列28. LLM Agent之金融領域摸索：FinMem & FinAgent

分享幾個.NET開源的AI和LLM相關項目框架

別魔改網絡了，Google研究員：模型精度不高，是因爲你的Resize方法不夠好！

深度學習中圖像分割經典算法和必備知識點整理

算！力！羊！毛！5000核時計算資源終於開放使用了！

部署教程 | ResNet原理+PyTorch復現+ONNX+TensorRT int8量化部署

YOLOS：通過目標檢測重新思考Transformer（附源代碼）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結