目錄
- [1] PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization
- [2] Height and Uprightness Invariance for 3D Prediction from a Single View
- [3] RoutedFusion: Learning Real-time Depth Map Fusion
- [4] Information-Driven Direct RGB-D Odometry
- [5] Anisotropic Convolutional Networks for 3D Semantic Scene Completion
- [6] Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes from a Single Image
- 總結
[1] PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization
- 出自南加大的一個系列工作
- task:基於圖片的三維重建
- motivation:重建的表面不夠細節,不夠精緻,high-fidelity + accuracy + high resolution
- high-fidelity:Pixel-Aligned Implicit Funciton(ICCV 2019,簡稱PIFu)。
- 得到high-fidelity的重建後,如何得到accuracy + high resolution?使用雙分支結構,上分支對原圖進行下采樣,使用Coarse PIFu進行處理;下分支先預測前後雙向的表面法向量結構,使用Fine PIFu進行處理。然後,採樣空間中的一個點,在低分和高分向量中找到local向量,過MLP後判斷是否在表面上。
[2] Height and Uprightness Invariance for 3D Prediction from a Single View
- task:單視角三維重建
- motivation:已有方法忽略了一個問題——不同相機位姿下物體高度是不變的。解決data conflict問題——兩張圖片能對應到同一個點,但是它們的label對不上。eg:跟蹤同一個視頻中的兩個物體,跟蹤物體1時,物體2是負樣本,跟蹤物體2時,物體2是正樣本。
- method:檢測地平面,計算相機高度,對座標進行變換。
[3] RoutedFusion: Learning Real-time Depth Map Fusion
- task:輸入:位姿、RGB-D圖像,輸出:融合後的完整的3D場景。
- background: TSDF。
- motivation:文中在Introduction中列出了3個優點、6個缺點。①. TSDF採用加權更新,具有一定限制。②. TSDF的更新是線性的,截斷值t是預設的,會產生僞影。③. 融合可能會把正反平面抵消。④. 噪聲無法處理。⑤. 無法處理gross outliers。⑥. 存在超參,對於特定的場景需要進行調整。
- method:通過降噪和異常處理(自編碼器)解決④⑤,通過refine解決②。其實就是都交給網絡去學。
- 本文方法不是端到端的。
[4] Information-Driven Direct RGB-D Odometry
- task:基於RGB-D的視覺里程計。
- related works:特徵點法、直接法。
- contribution:第一個引入信息理論的方法,在每個模塊(小節)中都引入了信息理論,在每個小節中都有motivation。
- 本文在BA(Bundle Adjustment)凸優化的基礎上,針對計算效率進行優化。
[5] Anisotropic Convolutional Networks for 3D Semantic Scene Completion
- task:從靜態深度圖或RGB圖像感知三維世界。
- motivation:現有方法存在兩個問題:①. 三維卷積的感受野固定,不能迎合物體的變化。②. 三維卷積是計算密集型,消耗較大。後有方法解決了第二個問題,本文主要針對第一個問題。
- method:提出AIC模塊,不使用固定大小卷積核,學習卷積核的大小,形成不同的感受野。
[6] Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes from a Single Image
- task:室內場景語義重建。
- motivation:在場景理解和物體網格重建之間架起橋樑。
- contribution:①. 本文是第一個端到端的、在實例等級上使用網格重構的3D場景理解方法。②. 在對象網格生成中,提出一種新的密度感知拓撲修改器。③. 本文方法考慮了對象之間的attention機制和多邊關係。
總結
- [1]中通過重建front/back normal來增加細節信息,V&L中能通過什麼增加細節信息呢?
- 使用信息論做決策,如何能套到V&L中?可否替代一些強化學習的決策方法?