論文速覽:三維點雲的表示與生成模型

Learning Representations and Generative Models for 3D Point Clouds

摘要

三維幾何數據爲研究表示學習和生成建模提供了一個很好的領域。在本文中,我們研究用點雲表示的幾何數據。介紹了一種具有最先進的重構質量和泛化能力的deep AutoEncoder (AE) 網絡。學習表示在三維識別任務上優於現有方法,通過簡單的代數操作實現了形狀編輯,如語義部分編輯、形狀類比和形狀插值以及形狀補全。我們對不同的生成模型進行了深入的研究,包括在原始點雲上運行的GANs、在我們AEs的固定潛空間中訓練的具有顯著提升的GANs以及高斯混合模型(GMMs)。爲了定量地評估生成模型,我們引入了基於點雲組間匹配的樣本保真度和多樣性度量。有趣的是,我們對泛化、保真度和多樣性的評估表明,在我們的AEs的潛在空間中訓練過的GMMs總體效果最好。
論文鏈接:https://arxiv.org/abs/1707.02392
代碼鏈接:https://github.com/optas/latent_3d_points

主要貢獻

真實物體的三維表示是視覺、機器人、醫學、增強現實和虛擬現實應用的核心工具。最近對用於深度學習的3D幾何編碼的嘗試包括基於視圖的投影,體積網格和圖形。在這項工作中,我們集中關注三維點雲的表示。在本文中,我們探索了深層架構在學習表示中的應用,並介紹了點雲的第一個深層生成模型。在文獻中,只有少數針對三維點雲量身定製的深層架構存在,它們的關注點在別處:Pointnet以分類和分割爲目標,或者只使用點雲作爲媒介或輸出表示。
本文的主要貢獻是:
1)一種新的點雲的AE架構:靈感來自於Pointnet。Pointnet架構可以通過(i)對不可見樣本進行高質量重建;(ii)通過簡單分類方法(SVM)得到好的分類質量;(iii)對有意義語義的操作、插值和形狀補全的能力,學習到緊湊的表達。
2)第一套點雲深度生成模型:該模型能夠合成點雲,具有(i)可測量的高保真度,(ii)訓練和待用數據的良好覆蓋率。工作流程爲首先訓練一個AE來學習潛在的表示,然後在這個固定的潛在空間中訓練一個生成模型。在潛在空間中訓練的GANs,在這裏稱爲l-GANs,比原始GANs更易於訓練,並且實現了更好的重構效果和數據分佈的覆蓋。在潛在空間中進行訓練時,多類GANs的表現幾乎與特定於某類的GANs相當。
3)一項關於新舊點雲 metrics 的研究:關於之指標在用於學習良好表示的重構目標與評估生成樣本方面的適用性。還發現Chamfer distance,無法確定某些病態的情況。
4)生成模型的保真度和覆蓋率:基於兩個不同的點雲集合之間的最佳匹配。提出的覆蓋率可以識別生成模型完全忽略的部分數據分佈,這是基於基數的多樣性度量可能無法捕獲的。

算法框架:

一、 點雲的表示模型
AE網絡的輸入是一個2048點(2048×3矩陣)的點雲,表示一個三維形狀。編碼器架構遵循pointnet的設計原則:內核大小爲1且特徵不斷增加的一維卷積層;這種方法獨立地編碼每個點。在卷積之後放置一個“對稱”的置換不變函數(例如max pool),以產生聯合表示。用5個一維卷積層,每個後面跟着一個ReLU層和一個BN層。最後一個卷積層的輸出逐特徵最大化,生成一個k維向量,這是潛在空間的基礎。解碼器使用3個全連接層對潛在向量進行轉換,前兩個有ReLU層,產生2048×3維的輸出。爲了保持置換不變,使用了兩種結構損失:EMD近似和CD,因此產生了兩個不同的AE模型,稱爲AE-EMD和AE-CD。爲了規範AEs,我們考慮了各種bottleneck尺寸,通過隨機旋轉點雲來使用drop-out和on-the-fly augmentations(動態擴增)。本文使用的是具有128維bottleneck層的AE。
二、 點雲的生成模型
2.1 Raw point cloud GAN (r-GAN)
首先嚐試在將原始2048×3點集輸入r-GAN。判別器的結構與AE相同,且沒有用BN結構,激活函數爲leaky ReLUs。最後一個全連接層的輸出被送入一個sigmoid神經元。生成器將高斯噪聲矢量作爲輸入,並通過5個全連接-激活層將其映射爲2048×3的輸出。
2.2 Latent-space GAN (l-GAN)
l-GAN不在原始點雲輸入上操作,而是將數據輸入預訓練的AE,該AE用具有EMD(或CD)損失函數的每個類別對象進行單獨訓練。然後,l-GAN的生成器和判別器都對AE的 bottleneck變量進行操作。訓練結束後使用AE的解碼器將生成器學習的編碼轉換爲點雲。l-GAN的結構明顯比r-GAN的結構簡單。具體而言,單個隱藏層的MLP生成器與兩個隱藏層的MLP判別器耦合,足以產生可測量性良好和真實的結果。
2.3 Gaussian mixture model
還可以在AEs學得的潛在空間上建立了一系列高斯混合模型(GMMs)。首先對配置的分佈進行採樣,然後使用AE的解碼器,GMM可以變成點雲生成器,類似於l-GANs。

主要結果:

本項工作在P2提出兩項指標:EMD與CD。以及三種生成模型的評估指標,包括:JSD、Coverage與MMD,詳見論文。本文通過試驗確定了提出的評估指標的有效性。實驗數據基於ShapeNet,按照85%-5%-10%的比例劃分的訓練/驗證/測試集。
一、AE的表示能力
首先,用MMD-CD和MMD-EMD度量來報告其泛化能。AE能夠重建不可見的形狀,其質量幾乎與用於訓練的形狀一樣好。如表1,比較重建點雲和真實值之間的MMD-CD和MMD-EMD,在該指標下的繁華差距很小。
在這裏插入圖片描述
利用AE還可以在潛在編碼可以進行語義上有意義的操作以及完成形狀補全問題。具體而言,AE網絡不僅可以重建相同的點雲,也可以輸出預期形狀,詳見附錄D。
使用潛在表示來訓練SVM分類器,並得到分類分數。見表2,ModelNet10和ModelNet40數據集上都有較高的分數。
在這裏插入圖片描述
二、 評估生成模型
訓練了五個帶有椅子類別點雲的生成器。首先建立兩個分別用CD或EMD損失訓練的AE,分別稱爲AE-CD和AE-EMD,並在每個潛在空間訓練l-GAN,使用Goodfellow等人的非飽和損失。在AE-EMD學習的空間中,我們訓練了另外兩個模型:一個相同的(架構方面的)l-GAN,利用具有梯度懲罰的Wasserstein目標和一個GMM族,具有不同數量的方法和協方差結構。 我們還直接在點雲數據上訓練r-GAN。表3,驗證了基於潛在方法和使用AE-EMD與AE-CD的效果。此外,證明了簡單的GMM可以獲得與潛在WGAN質量相當的結果。
在這裏插入圖片描述

Abstract

Three-dimensional geometric data offer an excellent domain for studying representation learning and generative modeling. In this paper, we look at geometric data represented as point clouds. We introduce a deep AutoEncoder (AE) network with state-of-the-art reconstruction quality and generalization ability. The learned representations outperform existing methods on 3D recognition tasks and enable shape editing via simple algebraic manipulations, such as semantic part editing, shape analogies and shape interpolation, as well as shape completion. We perform a thorough study of different generative models including GANs operating on the raw point clouds, significantly improved GANs trained in the fixed latent space of our AEs, and Gaussian Mixture Models (GMMs). To quantitatively evaluate generative models we introduce measures of sample fidelity and diversity based on matchings between sets of point clouds. Interestingly, our evaluation of generalization, fidelity and diversity reveals that GMMs trained in the latent space of our AEs yield the best results overall.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章