单个和多个图像进行多尺度上下文感知的3D重建

Pix2Vox ++:

从单个和多个图像进行多尺度上下文感知的3D重建!表现SOTA,性能比AttSets、IM-Net还强!最重要的是代码已开源!

作者团队:哈工大&商汤&南洋理工大学&鹏城实验室

在过去的几年中,利用深度神经网络从单个或多个图像中恢复物体的3D形状已引起越来越多的关注。主流工作(例如3D-R2N2)使用递归神经网络(RNN)顺序融合输入图像的特征图。但是,当给定相同输入图像的顺序不同时,基于RNN的方法无法产生一致的重建结果。此外,由于long-term memory loss,RNN可能会忘记早期输入图像中的重要功能。为了解决这些问题,我们提出了一种用於单视图和多视图3D对象重构的新颖框架,名为Pix2Vox++。通过使用设计良好的编码器/解码器,它可以从每个输入图像生成一个粗糙的3D volumes。然后引入多尺度上下文感知融合模块,以从所有粗糙的3D体积中为不同部分自适应地选择高质量的重建,以获得融合的3D volume。为了进一步校正融合的3D volume中错误回收的parts,采用了优化器来生成最终输出。在ShapeNet,Pix3D和Things3D基准测试上的实验结果表明,Pix2Vox ++在准确性和效率方面均优于最新技术。 《Pix2Vox++: Multi-scale Context-aware 3D Object Reconstruction from Single and Multiple Images》

代码:https://gitlab.com/hzxie/Pix2Vox

论文下载链接:https://arxiv.org/abs/2006.12250

关键词:#论文速递# #开源项目# #多尺度上下文感知# #三维重建#

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章