單個和多個圖像進行多尺度上下文感知的3D重建

Pix2Vox ++:

從單個和多個圖像進行多尺度上下文感知的3D重建!表現SOTA,性能比AttSets、IM-Net還強!最重要的是代碼已開源!

作者團隊:哈工大&商湯&南洋理工大學&鵬城實驗室

在過去的幾年中,利用深度神經網絡從單個或多個圖像中恢復物體的3D形狀已引起越來越多的關注。主流工作(例如3D-R2N2)使用遞歸神經網絡(RNN)順序融合輸入圖像的特徵圖。但是,當給定相同輸入圖像的順序不同時,基於RNN的方法無法產生一致的重建結果。此外,由於long-term memory loss,RNN可能會忘記早期輸入圖像中的重要功能。爲了解決這些問題,我們提出了一種用於單視圖和多視圖3D對象重構的新穎框架,名爲Pix2Vox++。通過使用設計良好的編碼器/解碼器,它可以從每個輸入圖像生成一個粗糙的3D volumes。然後引入多尺度上下文感知融合模塊,以從所有粗糙的3D體積中爲不同部分自適應地選擇高質量的重建,以獲得融合的3D volume。爲了進一步校正融合的3D volume中錯誤回收的parts,採用了優化器來生成最終輸出。在ShapeNet,Pix3D和Things3D基準測試上的實驗結果表明,Pix2Vox ++在準確性和效率方面均優於最新技術。 《Pix2Vox++: Multi-scale Context-aware 3D Object Reconstruction from Single and Multiple Images》

代碼:https://gitlab.com/hzxie/Pix2Vox

論文下載鏈接:https://arxiv.org/abs/2006.12250

關鍵詞:#論文速遞# #開源項目# #多尺度上下文感知# #三維重建#

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章