LCD: 2D-3D匹配算法

標題：LCD:Learned Cross-Domain Descriptors
for 2D-3D Matching

作者：Quang-Hieu Pham, Mikaela Angelina Uy,
Binh-Son Hua, et al.

論文地址：https://arxiv.org/abs/1911.09326

摘要

在這項工作中，提出了一種新穎的方法來學習用於2D圖像和3D點雲匹配的局部跨域描述符。提出的方法是一個雙自編碼器神經網絡，將2D和3D輸入映射到共享的潛在空間表示中。表明，與分別從2D和3D域中獲得的那些描述符相比，共享嵌入中的此類局部跨域描述符具有更大的判別力。爲了促進訓練過程，通過從公開可用的RGB-D場景中收集了約140萬個2D-3D對應關係，建立了一個新的數據集。的描述符在三個主要實驗中進行了評估：2D-3D匹配，跨域檢索和稀疏到稠密深度估計。實驗結果證實了的方法的魯棒性以及其競爭優勢，不僅體現在解決跨域任務方面，而且能夠泛化到單獨的2D和3D任務方面。

計算機視覺任務，如運動結構、視覺內容檢索，都需要來自2D和3D域的健壯描述符。在自己的領域中，這些描述符可以由低級特徵（例如顏色、邊緣等）構造。在圖像匹配中，計算機視覺中的一個著名任務，已經提出了幾種手工製作的本地描述符，例如SIFT（low e 2004）、SURF（Bay、Tuytelaars和Van Gool 2006）。隨着深度學習的出現，許多健壯的2D描述符都是使用深度神經網絡自動學習的（Simo-Serra等人。2015年；Kumar等人。2016年）。這些學習過的描述符顯示出了相對於手工製作的對應項的健壯性和優勢。同樣的現象也可以在三維空間中觀察到。例如，手工製作的3D描述符，例如FPFH（Rusu、Blodow和Beetz 2009）、SHOT（Tombari、Salti和Distefano2010）以及基於深度學習的描述符（Zengetal.2017）已用於許多3D任務，例如3D註冊（Choi、Zhou和Koltun2015；Zhou、Park和Koltun 2016）和運動結構（Hartley和Zisserman 2003）。雖然二維和三維描述符廣泛可用，但確定這些表示之間的關聯是一項具有挑戰性的任務。還缺少一個描述符，可以捕獲兩個域中的特性，併爲跨域任務（例如，二維到三維內容檢索）量身定製。通常，二維和三維表示之間存在很大差異。二維數據，即圖像，可以簡單地用規則網格表示。同時，三維數據可以由網格、體積或點雲表示，並通過受物理和光學定律支配的圖像形成模型獲得。即使最近出現了深度學習，這些問題仍然是相同的：在2D域上學習的特徵可能不適用於3D空間，反之亦然。

主要貢獻

1.一種新穎的學習型跨域描述符（LCD），使用雙自編碼器體系結構和三元損失來學習。的設置會強制2D和3D自編碼器在共享的潛在空間表示中學習跨域描述符。

2.一個約140萬個2D-3D對應的新的公共數據集，用於訓練和評估跨域描述符匹配。基於SceneNN和3DMatch構建了數據集。

3.驗證的跨域描述符的魯棒性的應用。將描述符用於解決單獨的2D（圖像匹配）和單獨的3D任務（3D配準），然後再應用於2D-3D內容檢索任務（2D-3D位置識別）。實驗結果表明，即使不是爲特定任務量身定製的描述符，的描述符在所有任務中的性能也可以與其他最新方法相媲美。

本文提出的網絡由二維自動編碼和三維自動編碼組成。輸入圖像和點雲數據分別用光度學損失和切角損失進行重建。重建損失保證了嵌入的特徵具有鑑別性和代表性。二維嵌入和三維嵌入之間的相似性通過三重態損失得到進一步的正則化。圖表表示法：fc表示全連接，conv/deconv（內核大小、輸出維度、跨距、填充）表示卷積和反捲積。默認情況下，每次卷積和反捲積之後都會進行ReLU激活和批處理規範化。

算法流程

1.問題定義

I ∈R^(W×H×3)表示尺寸爲WxH的彩色圖像塊，P ∈R^(N×6)爲含有N個點的彩色點雲，每個點由其3D世界座標和RGB值表示。

目的是學習一個跨域描述符，找到兩個映射：f : R^(W×H×3)→ D 和 g : R^(N×6)→ D，分別將2D和3D數據空間映射到一個共享的隱空間D
⊆ R^(D)。
2.網絡架構

圖1：提出的網絡由2D自編碼器和3D自編碼器組成。輸入圖像和點雲數據分別以光度和倒角損失進行重構。重建損失確保嵌入中的特徵具有判別力和代表性。2D嵌入dI和3D嵌入dP之間的相似性通過三元損失進一步規範化。

提出了一種新穎的雙自編碼器架構來學習描述符。的模型是一個兩分支的網絡架構，其中一個分支編碼3D特徵，另一個分支編碼2D特徵。然後，使用三元損失共同優化兩個分支，從而加強兩個分支生成的嵌入的相似性；還使用了2D / 3D重建損失。

2D自編碼器以64x64的彩色圖像塊作爲輸入，採用一系列卷積來提取圖像特徵，2D解碼器使用轉置卷積來重建圖像塊。3D分支採用PointNet架構，利用一系列全連接層和max-pooling來計算全局特徵。爲了重建彩色點雲，利用全連接層輸出Nx6的彩色點雲。

爲了實現共享表示，兩個自編碼器通過優化三元損失將的bottlenecks捆綁在一起。最終的訓練損失包括如下的光度損失，倒角損失和三元損失。

光度損失：2D自編碼器的損失由光度損失定義，光度損失是輸入2D圖像塊與重構色塊之間的均方誤差:

倒角損失：爲了優化3D自編碼器網絡，需要計算輸入點集和重構點集之間的距離。通過倒角距離測量該距離：

三元損失：爲了在由2D和3D分支生成的嵌入中實現相似性，即2D圖像塊及其對應的3D結構應具有相似的嵌入，採用三元損失函數。這種損失最小化錨點和正樣本之間的距離，最大化錨點和負樣本之間的距離。

總的損失函數：

主要結果

表1，SceneNN數據集上的2D匹配結果。

圖2，SIFT和提出的描述符之間的定性2D匹配比較。的描述符可以直接識別牆壁和冰箱的特徵，而SIFT不能區分。

表2，3DMatch基準上的3D配準結果。

圖3，3DMatch基準測試的定性結果。通過匹配局部3D描述符，的方法能夠成功地在不同具有挑戰性的場景中對齊片段對，而3DMatch (Zeng et al. 2017)在幾何存在歧義的情況下失敗。

圖4：2D-3D位置識別任務的結果。LCD-D256，LCD-D128和LCD-D64表示具有不同維度的描述符。有效的同時，的跨域描述符還展示了對輸入噪聲的魯棒性，LCD-σ表示將標準偏差σ的高斯噪聲添加到查詢圖像中時的結果。

圖6：稀疏到密集的深度估計結果。輸入是RGB圖像和2048個稀疏深度樣本。的網絡通過重建局部3D點來估計密集的深度圖。