CVPR2020:三維點雲無監督表示學習的全局局部雙向推理

CVPR2020:三維點雲無監督表示學習的全局局部雙向推理

Global-Local Bidirectional Reasoning for Unsupervised Representation Learning of 3D Point Clouds

論文地址:

https://openaccess.thecvf.com/content_CVPR_2020/papers/Rao_Global-Local_Bidirectional_Reasoning_for_Unsupervised_Representation_Learning_of_3D_Point_CVPR_2020_paper.pdf

摘要

局部模式和全局模式密切相關。雖然對象的每個部分都是不完整的,但是對象的底層屬性在所有部分之間是共享的,這使得從單個部分推理整個對象成爲可能。假設,一個強大的三維物體的表現應該建模的屬性之間的部分和整個對象,並區別於其對象。基於這個假設,提出在沒有人工監督的情況下,通過在不同抽象層次的局部結構和全局形狀之間進行雙向推理來學習點雲表示。在不同基準數據集上的實驗結果表明,無監督學習表示在識別能力、泛化能力和魯棒性等方面優於有監督表示。證明了無監督訓練的點雲模型在下游分類任務上的表現優於有監督的點雲模型。最值得注意的是,通過簡單地增加SSG PointNet++的通道寬度,無監督模型在合成和真實世界的3D對象分類數據集上都優於最先進的監督方法。期望觀察能夠爲從數據結構中學習更好的表示提供一個新的視角,而不是使用人工註釋來理解點雲。

1.介紹

促進機器理解三維世界對於許多重要的現實世界應用至關重要,例如自主駕駛、增強現實和機器人技術。三維幾何數據(如點雲)的一個核心問題是學習具有區分性、通用性和魯棒性的強大表示。爲了解決這一問題,本文藉助於大量的人工註釋監督信息,建立了點雲分析的最新進展[2,26,28,33,38,43,49,51,54]。

然而,人工標註的數據需要耗費大量的人力,這可能會限制學習模型的泛化能力。因此,無監督學習是一個有吸引力的方向,以獲得通用和魯棒的三維物體理解表示。從未標記的數據中學習有用的表示是點雲分析的一個基本且具有挑戰性的問題。雖然人已經致力於學習無人工監督的點雲表示[1,8,14,18,26,31,47,55,56],但這些方法主要基於生成或重構任務提供的自監督信號,包括自重構[1,8,14,26,47,55,56],局部到全局重構[18,31]和分佈估計[1,26]。這些方法在獲取點雲的結構信息和低層信息方面是有效的,但通常無法從點雲中獲取高層語義信息。因此,無監督模型的性能仍然遠遠落後於最先進的有監督模型。本文的目的是探索一種既能學習結構信息又能學習語義知識的無監督學習算法,以提高無監督學習表徵的質量。
在這裏插入圖片描述
不同於圖像中局部區域的噪聲很大,並且通常獨立於整個圖像(例如,給定一個狗的斑塊,無法識別該圖像是關於動物還是附近的人),3D對象的所有部分都共享潛在的語義和結構信息。三維物體的這一獨特特性使得從一個單獨的部分來推理整個物體成爲可能。基於這一觀察結果,假設一個強大的三維物體的表現應該對部分和整個物體之間共享的、與其物體不同的潛在屬性進行建模。如圖1所示,給定一架飛機尾部的點雲,良好的尾部表示應該反映出相應飛機的類型。同時,整個飛機的表現應該包含所有必要的細節來推斷這架飛機的局部結構。

本文提出了一種新的無監督點雲表示學習方案,該方案通過網絡中不同抽象層次的局部表示和三維對象的全局表示進行雙向推理。方法簡單而有效,可以廣泛應用於點雲理解的深度學習方法。現有的無監督學習方法主要是通過學習不同的自動編碼器來獲取結構信息,而方法是在三維點雲中獲取局部結構和全局形狀之間共享的語義知識。具體來說,所提出的全局局部推理(GLR)包括兩個子任務:1)局部到全局推理:將局部局部和全局形狀之間的共享屬性捕獲問題描述爲一個自監督度量學習問題,其中,鼓勵局部特徵比其對象的特徵更接近於同一對象的全局特徵,從而可以通過局部表示來提取每個對象的不同語義信息;2)全局局部推理:進一步使用包括自重構和正態估計在內的自監督任務來實現瞭解包含三維對象的必要結構信息的全局要素。在幾個基準數據集上的實驗結果表明,在下游對象分類任務中,

無監督學習的點雲表示比監督表示更具鑑別性、通用性和魯棒性。無監督訓練模型可以持續優於監督對手。利用無監督學習方法,展示了一個簡單而輕量級的SSG PointNet++[38]模型可以通過有監督的方法獲得非常有競爭力的結果(在ModelNet40[52]上分類準確率爲92.2%)。通過簡單地增加通道寬度,在ModelNet40和ScanObjectNN[46]基準上分別獲得93.0%和87.2%的單視圖精度,超過了最先進的無監督和有監督方法,而該模型的監督版本則存在過度擬合的問題。

2.相關工作

3D點雲深度學習:

近年來,三維點雲分析的快速發展得益於直接使用三維點雲的深度學習技術[28,33,37,38,49]。PointNet[26]開創了這一系列的工作,並設計了一個深度網絡,通過獨立學習每個點並使用最大池融合點特性,可以處理無序和非結構化的三維點。雖然很有效,但PointNet無法捕獲本地結構,這已被證明是CNNs成功的關鍵。PointNet++[38]通過開發一個分層的分組體系結構,在不同的抽象層次上逐步提取局部特徵,從而緩解了這一問題。隨後的工作,如PointCNN[28]、PointConv[51]和關係形狀CNN[33]等,也關注點雲的局部結構,進一步提高了捕捉特徵的質量。由於只需要局部和全局特徵之間的關係,方法適用於所有這些PointNet++變量。雖然最近的作品通過提升網絡的能力推動了點雲深度學習的最新水平,但這項工作提供了一種新的途徑,可以在無監督的方式下學習強大的表示,而無需任何人工註釋。
在這裏插入圖片描述
無監督表徵學習:

自最早的[13]以來,無監督學習一直是計算機視覺中的一組重要方法,其目的是學習數據的轉換,從而使後續的下游問題求解更容易[5]。用於無監督學習的經典deep方法,如自動編碼器[21]、生成性對抗性網絡[16]和自迴歸模型[35]通過忠實地重建輸入數據來學習表示,這些輸入數據集中在數據的低級變化上,對於分類等下游任務不是很有用。近年來關於自監督學習的研究提出了一個強大的模型家族,可以學習具有豐富語義知識的區分表示。這組方法設計了各種問題生成器,使得模型需要從數據中學習有用的信息,以便解決這些生成的問題[3,10,11,19,44]。在本文中,也遵循這一思路,提出通過解決全局-局部雙向推理問題來學習點雲表示。

在沒有人工監督的情況下學習點雲的表示法已有幾次嘗試[1,8,14,18,26,31,47,55,56]。這些方法通過數據重建來發現三維點雲中有用的信息,這對於學習結構信息是有效的。然而,由於缺乏有效的語義監督,以往的方法限制了網絡在下游任務中的能力。方法通過將語義監督與結構監督相結合來解決這個問題。通過對高層語義知識的挖掘,方法能夠學習像有監督方法一樣的區別表示,同時保持無監督表示的魯棒性和泛化性。

  1. Approach

三維點雲理解的核心是學習區分性、通用性和魯棒性的表示,這些表示可以捕捉底層形狀。爲了在無監督的情況下實現這一目標,提出通過解決局部結構和全局形狀之間的雙向推理問題來實現點雲表示。方法的總體框架如圖2所示。

分層點雲特徵學習

首先回顧PointNet++[38]中提出的層次化點雲特徵學習框架,方法就是基於這個框架構建的。

幾乎所有以前關於有監督點雲學習的著作[2,26,28,33,38,43,49,51,54]都採用了端到端的訓練範式,直接從標註的標籤中學習表示。這些方法雖然取得了很好的效果,但忽略了點雲本身所包含的語義和結構信息。在這項工作中,致力於探索點雲的這一特性,併爲點雲表示學習提供一個非常有競爭力的替代方案。爲了從沒有人工標註的數據中發現結構和語義信息,提出了兩個網絡需要解決的問題:局部到全局的推理和全局到局部的推理,其目的分別是無監督地學習語義和結構知識。

局部到全局推理

即使只有一小部分物體被呈現出來,人類也能辨認出許多物體。這一事實啓發利用局部部分和全局形狀之間的關係作爲一個自由而豐富的監督信號,來訓練一個豐富的點雲理解表示。因此,局部到全局推理的目標是挖掘點雲不同抽象層次之間的共享語義知識。由於全局表示通常比局部表示能更好地捕捉三維對象的語義信息,因此局部到目標推理通過從局部表示中預測全局表示來實現。爲了評估預測,將預測描述爲一個自監督度量學習問題,並使用多類N對損失來監督預測任務。受實例判別的啓發[53],爲了學習每個對象的不同語義信息,將當前對象的全局表示作爲正樣本,將其對象的全局表示作爲負樣本。

全局到局部推理

由於從未標記的數據中發現有助於下游任務的知識通常是相當困難的,局部到全局的推理不一定會導致有用的表示。對互信息最大化方法的研究也指出了這一事實[44,45],其中證據表明,較大的互信息可能不能保證下游任務有更好的性能[45]。直覺上,由於局部到全局推理只監督局部表示接近全局表示,因此全局表示的質量至關重要。這就是說,如果全局代表性的啓動良好,將對地方代表性進行適當的監督,從而爲學習本地和全局特徵創造一個良性循環。相反,由於全局表示的初始狀態不好,學習過程可能會得到不可預測的結果。爲了避免這個問題,提出了一個輔助的全局到局部推理任務來監督網絡以共同學習有用的表示。具體來說,使用兩個低層生成任務,包括自重構和正態估計作爲兩個自監督信號,這樣全局表示需要捕獲點雲的基本結構信息。

  1. Experiments

對幾種廣泛使用的點雲分類基準數據集(包括ModelNet10/40[52]、ScanObjectNN[46]和ScanNet[7]等)進行了廣泛的評估。首先,評估了方法在數據集上的識別能力、泛化能力和魯棒性,並與最新的無監督和有監督方法進行了比較。然後提供了詳細的實驗來分析方法在模型設計和複雜度上的差異。最後,將學習到的表示可視化,以便對方法有一個直觀的理解。下面詳細介紹了實驗、結果和分析。
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章