2020-07-07 CVPR2020 i3DV論文討論(3) 筆記

[1] PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization

  • 出自南加大的一個系列工作
  • task:基於圖片的三維重建
  • motivation:重建的表面不夠細節,不夠精緻,high-fidelity + accuracy + high resolution
  • high-fidelity:Pixel-Aligned Implicit Funciton(ICCV 2019,簡稱PIFu)。
  • 得到high-fidelity的重建後,如何得到accuracy + high resolution?使用雙分支結構,上分支對原圖進行下采樣,使用Coarse PIFu進行處理;下分支先預測前後雙向的表面法向量結構,使用Fine PIFu進行處理。然後,採樣空間中的一個點,在低分和高分向量中找到local向量,過MLP後判斷是否在表面上。

[2] Height and Uprightness Invariance for 3D Prediction from a Single View

  • task:單視角三維重建
  • motivation:已有方法忽略了一個問題——不同相機位姿下物體高度是不變的。解決data conflict問題——兩張圖片能對應到同一個點,但是它們的label對不上。eg:跟蹤同一個視頻中的兩個物體,跟蹤物體1時,物體2是負樣本,跟蹤物體2時,物體2是正樣本。
  • method:檢測地平面,計算相機高度,對座標進行變換。

[3] RoutedFusion: Learning Real-time Depth Map Fusion

  • task:輸入:位姿、RGB-D圖像,輸出:融合後的完整的3D場景。
  • background: TSDF。
  • motivation:文中在Introduction中列出了3個優點、6個缺點。①. TSDF採用加權更新,具有一定限制。②. TSDF的更新是線性的,截斷值t是預設的,會產生僞影。③. 融合可能會把正反平面抵消。④. 噪聲無法處理。⑤. 無法處理gross outliers。⑥. 存在超參,對於特定的場景需要進行調整。
  • method:通過降噪和異常處理(自編碼器)解決④⑤,通過refine解決②。其實就是都交給網絡去學。
  • 本文方法不是端到端的。

[4] Information-Driven Direct RGB-D Odometry

  • task:基於RGB-D的視覺里程計。
  • related works:特徵點法、直接法。
  • contribution:第一個引入信息理論的方法,在每個模塊(小節)中都引入了信息理論,在每個小節中都有motivation。
  • 本文在BA(Bundle Adjustment)凸優化的基礎上,針對計算效率進行優化。

[5] Anisotropic Convolutional Networks for 3D Semantic Scene Completion

  • task:從靜態深度圖或RGB圖像感知三維世界。
  • motivation:現有方法存在兩個問題:①. 三維卷積的感受野固定,不能迎合物體的變化。②. 三維卷積是計算密集型,消耗較大。後有方法解決了第二個問題,本文主要針對第一個問題。
  • method:提出AIC模塊,不使用固定大小卷積核,學習卷積核的大小,形成不同的感受野。

[6] Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes from a Single Image

  • task:室內場景語義重建。
  • motivation:在場景理解和物體網格重建之間架起橋樑。
  • contribution:①. 本文是第一個端到端的、在實例等級上使用網格重構的3D場景理解方法。②. 在對象網格生成中,提出一種新的密度感知拓撲修改器。③. 本文方法考慮了對象之間的attention機制和多邊關係。

總結

  • [1]中通過重建front/back normal來增加細節信息,V&L中能通過什麼增加細節信息呢?
  • 使用信息論做決策,如何能套到V&L中?可否替代一些強化學習的決策方法?
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章