多視圖立體匹配論文分享:BlendedMVS

作者:Toddi-Qi

來源:微信公衆號|3D視覺工坊(系投稿)

 

3D視覺精品文章彙總:https://github.com/qxiaofan/awesome-3D-Vision-Papers/

 

論文題目:BlendedMVS: A Large-scale Dataset for Generalized Multi-view Stereo Networks

數據集和預訓練模型地址:在公衆號「3D視覺工坊」,後臺回覆「BlendedMVS」,即可直接下載。

摘要:

儘管深度學習在多視圖立體匹配領域取得了很大的進展,但是有限的訓練數據使得訓練模型很難泛化到看不見的場景。與其他的計算機視覺任務相比,製作大規模的MVS數據集是相對困難的,因爲它需要昂貴的主動激光掃描儀和勞動密集的處理去獲得ground-truth的三維結構。本文提出一個新的大規模數據集BlendedMVS,爲基於學習的MVS算法提供了足夠的訓練樣本。爲了創建數據集,首先利用三維重建算法從給定的場景圖像中恢復出帶紋理的三維網格模型。然後將重建得到的三維網格模型渲染得到彩色圖像和深度圖。爲了在模型訓練中引入環境的光照信息,渲染得到的彩色圖像和原始輸入圖像進行混合,混合得到的彩色圖像作爲網絡模型的訓練輸入。BlendedMVS數據集中包含超過17k的高分辨率圖像,涵蓋了各種場景,包括城市、建築、雕塑和小物體。實驗表明:和其他數據集相比,使用BlendedMVS訓練的網絡模型具有更好的泛化能力。

多視圖立體匹配論文分享:BlendedMVS

 

圖 1 渲染數據的生成流程,首先從輸入圖像中生成帶紋理的三維模型,然後將三維模型渲染到不同的視點下得到渲染圖像和深度圖。

一、數據集的製作:

數據集製作的流程如圖1所示,首先使用三維重建算法從輸入的圖像中生成帶紋理的三維網格模型。接下來,將三維網格模型渲染到每個相機視點下以獲得渲染的圖像和對應的深度圖。最終用於訓練的輸入圖像是渲染圖像和輸入圖像進行混合得到混合圖像。

1.1. 生成帶紋理的三維網格模型

構建合成MVS數據集的第一步是生成高質量的帶紋理的三維網格模型。給定輸入圖像,首先利用Altizure平臺進行三維網格重建。該軟件會執行完整的三維重建算法,三維重建的輸出結果爲帶紋理的三維網格模型和相機位姿。

如圖1所示,根據三維網格模型和輸入圖像的相機位姿,可以把三維模型渲染到各個視點下得到渲染的圖像和渲染的深度圖。渲染得到的深度圖將作爲模型訓練時深度圖的ground-truth。

多視圖立體匹配論文分享:BlendedMVS

 

圖 2 混合圖像生成的流程,高通濾波器用於從渲染圖像中提取視覺線索,而低通濾波器從輸入圖像中提取環境光照信息。

1. 2. 生成混合圖像

直觀上講,渲染得到的圖像可以直接作爲網絡訓練。然而,一個潛在的問題是渲染得到的圖像不包含依賴視圖的光照。事實上,一個理想的MVS網絡訓練樣本應該滿足以下兩個條件:

① 圖像和深度圖應該一致對齊,訓練樣本應該提供從輸入圖像到ground-truth深度圖的可靠映射。

② 圖像應該反射視點相關的光照。逼真的環境光照可以增強模型對真實場景的泛化能力。

多視圖立體匹配論文分享:BlendedMVS

 

二、場景

BlendedMVS數據集包含113個場景,涵蓋了各種不同的場景,包括建築、街景、雕塑和小型物體。每個場景包含20到1000張不等的輸入圖像,整個數據集共有17818張圖像。與DTU數據集相比,DTU數據集場景是通過一個固定的機械臂獲取的,BlendedMVS數據集中的場景包含各種不同的相機軌跡。非結構化的相機軌跡可以更好地建模不同的圖像捕捉風格,使得網絡對真實世界的重建具有更好的泛化性能。

多視圖立體匹配論文分享:BlendedMVS

 

圖 3 BlendedMVS數據集中帶有相機軌跡的三維紋理模型,圖中藍色框表示三維空間中相機的位置。

三、實驗結果

爲了驗證提出的數據集的有效性,作者在BlendedMVS數據集上訓練和評測了MVSNet、R-MVSNet和Point-MVSNet三種網絡模型。

3.1. 深度圖驗證

爲了驗證BlendedMVS數據集的有效性,作者比較了在1)DTU訓練集、2)ETH3D低分辨率訓練集、3)MegaDepth數據集和4)BlendedMVS訓練集上訓練模型的效果。評測在對應數據集的驗證集上進行的。實驗中考慮的三個指標:1)終點誤差(end point error, EPE),即預測的深度圖與深度圖ground-truth的平均誤差;2)大於1像素誤差,即誤差大於1個深度像素的比例;3)大於3像素誤差。定量結果如圖4所示。

多視圖立體匹配論文分享:BlendedMVS

 

圖 4 模型訓練過程中驗證集上的深度圖誤差。使用BlendedMVS數據集(紅線)訓練的模型在DTU和ETH3D驗證集上都表現出良好的泛化性能。

3.2. 點雲評測

除了深度圖評測之外,作者還比較了在DTU、ETH3D、MegaDepth和BlendedMVS數據集訓練的模型在Tanks and Temples訓練集上的點雲重建效果。點雲評測包括三個評價指標,即精度(accuracy)、召回率(completeness)和整體來衡量重建質量。如表5所示,在DTU和MegaDepth數據集上訓練的模型取得了接近的分數,而在BlendedMVS數據集上訓練的模型在所有場景上都優於其他三個數據集上訓練的模型。將訓練數據從DTU改爲BlendedMVS,從47.5%提高到53.2%.深度圖的可視化比較如圖6所示。

多視圖立體匹配論文分享:BlendedMVS

 

圖 5 Tanks and Temples數據上的點雲評測,在BlendedMVS數據上訓練的模型在所有場景上性能優於在其他數據集上訓練的模型。

多視圖立體匹配論文分享:BlendedMVS

 

圖 6 深度圖重建的可視化比較,與其他三個數據集相比,使用BlendedMVS數據集訓練的模型預測的深度圖結果更清晰。

結論:

本文提出用於MVS網絡模型訓練的BlendedMVS數據集。數據集提供了超過17k的高質量訓練樣本,涵蓋了各種場景。爲了構建數據集,首先從輸入圖像中重建帶紋理的三維網格模型,然後將三維網格模型渲染得到彩色圖像和深度圖。將渲染的彩色圖像和輸入圖像進行混合作爲模型訓練的輸入。使用了BlendedMVS數據集和其他MVS數據集對三種網絡模型進行訓練。定量和定性結果表明,在BlendedMVS數據集上訓練的模型具有更好的泛化能力。

本文僅做學術分享,如有侵權,請聯繫刪文。

3D視覺工坊-CV交流羣

已建立3D視覺工坊-CV微信交流羣!想要進CV交流羣的同學,可以直接加微信號:CV_LAB 。加的時候備註一下:研究方向+學校+暱稱,即可。然後就可以拉你進羣了。

強烈推薦大家關注「3D視覺工坊」今日頭條和「3D視覺工坊」微信公衆號,可以快速瞭解到最新優質的3D視覺論文。

論文題目:BlendedMVS: A Large-scale Dataset for Generalized Multi-view Stereo Networks

數據集和預訓練模型地址:在公衆號「3D視覺工坊」,後臺回覆「BlendedMVS」,即可直接下載。

摘要:

儘管深度學習在多視圖立體匹配領域取得了很大的進展,但是有限的訓練數據使得訓練模型很難泛化到看不見的場景。與其他的計算機視覺任務相比,製作大規模的MVS數據集是相對困難的,因爲它需要昂貴的主動激光掃描儀和勞動密集的處理去獲得ground-truth的三維結構。本文提出一個新的大規模數據集BlendedMVS,爲基於學習的MVS算法提供了足夠的訓練樣本。爲了創建數據集,首先利用三維重建算法從給定的場景圖像中恢復出帶紋理的三維網格模型。然後將重建得到的三維網格模型渲染得到彩色圖像和深度圖。爲了在模型訓練中引入環境的光照信息,渲染得到的彩色圖像和原始輸入圖像進行混合,混合得到的彩色圖像作爲網絡模型的訓練輸入。BlendedMVS數據集中包含超過17k的高分辨率圖像,涵蓋了各種場景,包括城市、建築、雕塑和小物體。實驗表明:和其他數據集相比,使用BlendedMVS訓練的網絡模型具有更好的泛化能力。

多視圖立體匹配論文分享:BlendedMVS

 

圖 1 渲染數據的生成流程,首先從輸入圖像中生成帶紋理的三維模型,然後將三維模型渲染到不同的視點下得到渲染圖像和深度圖。

一、數據集的製作:

數據集製作的流程如圖1所示,首先使用三維重建算法從輸入的圖像中生成帶紋理的三維網格模型。接下來,將三維網格模型渲染到每個相機視點下以獲得渲染的圖像和對應的深度圖。最終用於訓練的輸入圖像是渲染圖像和輸入圖像進行混合得到混合圖像。

1.1. 生成帶紋理的三維網格模型

構建合成MVS數據集的第一步是生成高質量的帶紋理的三維網格模型。給定輸入圖像,首先利用Altizure平臺進行三維網格重建。該軟件會執行完整的三維重建算法,三維重建的輸出結果爲帶紋理的三維網格模型和相機位姿。

如圖1所示,根據三維網格模型和輸入圖像的相機位姿,可以把三維模型渲染到各個視點下得到渲染的圖像和渲染的深度圖。渲染得到的深度圖將作爲模型訓練時深度圖的ground-truth。

多視圖立體匹配論文分享:BlendedMVS

 

圖 2 混合圖像生成的流程,高通濾波器用於從渲染圖像中提取視覺線索,而低通濾波器從輸入圖像中提取環境光照信息。

1. 2. 生成混合圖像

直觀上講,渲染得到的圖像可以直接作爲網絡訓練。然而,一個潛在的問題是渲染得到的圖像不包含依賴視圖的光照。事實上,一個理想的MVS網絡訓練樣本應該滿足以下兩個條件:

① 圖像和深度圖應該一致對齊,訓練樣本應該提供從輸入圖像到ground-truth深度圖的可靠映射。

② 圖像應該反射視點相關的光照。逼真的環境光照可以增強模型對真實場景的泛化能力。

多視圖立體匹配論文分享:BlendedMVS

 

二、場景

BlendedMVS數據集包含113個場景,涵蓋了各種不同的場景,包括建築、街景、雕塑和小型物體。每個場景包含20到1000張不等的輸入圖像,整個數據集共有17818張圖像。與DTU數據集相比,DTU數據集場景是通過一個固定的機械臂獲取的,BlendedMVS數據集中的場景包含各種不同的相機軌跡。非結構化的相機軌跡可以更好地建模不同的圖像捕捉風格,使得網絡對真實世界的重建具有更好的泛化性能。

多視圖立體匹配論文分享:BlendedMVS

 

圖 3 BlendedMVS數據集中帶有相機軌跡的三維紋理模型,圖中藍色框表示三維空間中相機的位置。

三、實驗結果

爲了驗證提出的數據集的有效性,作者在BlendedMVS數據集上訓練和評測了MVSNet、R-MVSNet和Point-MVSNet三種網絡模型。

3.1. 深度圖驗證

爲了驗證BlendedMVS數據集的有效性,作者比較了在1)DTU訓練集、2)ETH3D低分辨率訓練集、3)MegaDepth數據集和4)BlendedMVS訓練集上訓練模型的效果。評測在對應數據集的驗證集上進行的。實驗中考慮的三個指標:1)終點誤差(end point error, EPE),即預測的深度圖與深度圖ground-truth的平均誤差;2)大於1像素誤差,即誤差大於1個深度像素的比例;3)大於3像素誤差。定量結果如圖4所示。

多視圖立體匹配論文分享:BlendedMVS

 

圖 4 模型訓練過程中驗證集上的深度圖誤差。使用BlendedMVS數據集(紅線)訓練的模型在DTU和ETH3D驗證集上都表現出良好的泛化性能。

3.2. 點雲評測

除了深度圖評測之外,作者還比較了在DTU、ETH3D、MegaDepth和BlendedMVS數據集訓練的模型在Tanks and Temples訓練集上的點雲重建效果。點雲評測包括三個評價指標,即精度(accuracy)、召回率(completeness)和整體來衡量重建質量。如表5所示,在DTU和MegaDepth數據集上訓練的模型取得了接近的分數,而在BlendedMVS數據集上訓練的模型在所有場景上都優於其他三個數據集上訓練的模型。將訓練數據從DTU改爲BlendedMVS,從47.5%提高到53.2%.深度圖的可視化比較如圖6所示。

多視圖立體匹配論文分享:BlendedMVS

 

圖 5 Tanks and Temples數據上的點雲評測,在BlendedMVS數據上訓練的模型在所有場景上性能優於在其他數據集上訓練的模型。

多視圖立體匹配論文分享:BlendedMVS

 

圖 6 深度圖重建的可視化比較,與其他三個數據集相比,使用BlendedMVS數據集訓練的模型預測的深度圖結果更清晰。

結論:

本文提出用於MVS網絡模型訓練的BlendedMVS數據集。數據集提供了超過17k的高質量訓練樣本,涵蓋了各種場景。爲了構建數據集,首先從輸入圖像中重建帶紋理的三維網格模型,然後將三維網格模型渲染得到彩色圖像和深度圖。將渲染的彩色圖像和輸入圖像進行混合作爲模型訓練的輸入。使用了BlendedMVS數據集和其他MVS數據集對三種網絡模型進行訓練。定量和定性結果表明,在BlendedMVS數據集上訓練的模型具有更好的泛化能力。

本文僅做學術分享,如有侵權,請聯繫刪文。

3D視覺工坊-CV交流羣

已建立3D視覺工坊-CV微信交流羣!想要進CV交流羣的同學,可以直接加微信號:CV_LAB 。加的時候備註一下:研究方向+學校+暱稱,即可。然後就可以拉你進羣了。

強烈推薦大家關注「3D視覺工坊」今日頭條和「3D視覺工坊」微信公衆號,可以快速瞭解到最新優質的3D視覺論文。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章