semantic3d.net:a new large-scale point cloud classification benchmark(學習筆記一)

前言

在此之前看過的點雲論文都是看一篇是一篇,未嘗寫過博客記錄下學習心得,時間久了自己都記不得內容了,前段時間看到舍弟寫的博客,遂覺自己也有必要將所看論文寫成博客記錄所獲心得。本篇博客是將英文論文翻譯成中文。以下爲全文漢譯。
未完待續,更新中……

semantic3d網:一種新的大規模點雲分類基準

Timo Hackela, Nikolay Savinovb, Lubor Ladickyb, Jan D. Wegnera, Konrad Schindlera, Marc Pollefeysb
a IGP, ETH Zurich, Switzerland - (timo.hackel, jan.wegner, konrad.schindler)@geod.baug.ethz.ch
b CVG, ETH Zurich, Switzerland - (nikolay.savinov, lubor.ladicky, marc.pollefeys)@inf.ethz.ch

摘要

本文提出了一種新的三維點雲分類基準數據集,該數據集包含40多億個人工標註的點,可作爲數據飢渴(deep)學習方法的輸入。我們也仔細認真的討論了第一次提交的用於深層卷積神經網絡的基準,這些基準相比於最先進的成果,已經展現出了卓越的性能提升。卷積神經網絡已經成爲計算機視覺和機器學習許多任務的實際標準,比如圖像中的語義分割或目標檢測,但由於缺乏訓練數據,三維點雲標記任務尚未取得真正突破。用本文提供的大量數據集,我們旨在縮小這個數據缺口,以幫助釋放深度學習方法在三維標記任務上的全部潛力,我們的三維語義網絡數據集由地面激光掃描儀獲取的稠密點雲組成,它包含8個語義類並且涵蓋了廣泛的城市戶外場景:教堂、接到、鐵路軌道、廣場、村莊、足球場和城堡。我們描述了我們的標籤接口,並且展示了我們的數據提供了更加稠密和完整的點雲,而且相比於在研究社區已經獲取到的數據,我們的數據標記點的總體數量要更高。我們進一步提供基線方法的說明和其與提交到我們在線系統的方法之間的比較。我們希望三維語義網絡能夠鋪平深度學習方法在三維點雲標註方面的道路,從而學習更豐富、更通用的三維表現形式,而僅僅幾個月後的第一次提交就表明情況可能確實如此。

1.緒論

自(Krizhevsky et al., 2012)的開創性論文以來,深度學習已經取得驚人的再次流行,該論文再現了(福島,1980年,LeCun et al., 1989年)的早期工作。特別是深度卷積神經網絡(CNN)已經迅速成爲一系列基於學習的圖像分析任務的核心技術。在計算機視覺和機器學習方面絕大多數的先進方法都將CNNs作爲它們的重要組成部分之一。它們在圖像解譯任務中的成功主要歸功於(i)易於並行的網絡架構,這種網絡架構便於在單GPU上訓練數百萬張的圖像。(ii)可以獲取大型公共基準數據集,比如關於rgb圖像的ImageNet(Deng等人,2009年,Russakovsky等人,2015年)和Pascal VOC(Everingham等人,2010年)數據集,或者針對rgb-d數據的SUN rgb-d(Song等人,2015)數據集。

雖然CNNs在圖像解譯方面有一個偉大的成功史,但在三維點雲解譯方面就不那麼成功了。對於三維點雲來說,使得點雲的監督學習變得困難的原因是每個數據集擁有數百萬個點的規模,並且這些點是不規則,非網格對齊的,在一些具有非常稀疏結構的位置處,還伴隨着強烈的點密度變化(如圖1)。

在這裏插入圖片描述
雖然現在的記錄是直接的,但是主要的瓶頸是生成足夠多的人工標註訓練數據,這是當代機器學習(深度學習)學習好的模型所必需的,它可以很好地推廣到新的、未見過的場景。由於額外的維度,在三維空間中的分類器參數規模要比在二維空間中的規模更大,並且特殊的三維效果,比如遮擋或點密度的變化,導致完全相同的輸出類別有許多不同的形態。這使得訓練好的通用分類器分類效果變差,並且在三維空間中我們通常需要比二維空間更多的訓練數據。相比於圖像,即使是未經訓練過的用戶也能很容易的對圖像進行註解,而三維點雲則更難去解譯。瀏覽三維點雲更加的耗時,而且劇烈的點密度變化加重了對場景的解譯。

爲了加速點雲處理的強大算法的開發,我們提供了(我們所知道的)所收集的迄今規模最大的地面激光掃描數據,該數據附有單點級地面真實語義的標註。總計有超過4×109個點和8個類的類標籤。數據集被分成大小大致相同的訓練集和測試集。掃描是有挑戰性的,不僅是因爲它們每條掃描線上高達約4×108個點,而且還因爲它們的高測量分辨率和長測量範圍,導致極端的密度變化和大面積的遮擋。爲了方便使用基準測試,我們不僅提供免費可用的數據,還提供一個自動的在線提交系統以及公開提交方法的結果。該基準還包括基準線,一個遵循基於特徵值的多尺度特徵提取標準範式,然後使用隨機森林進行分類,另一個遵循基本的深度學習方法。此外,第一次提交的基準,我們也簡要討論。

2.相關工作

基準工作在地理空間數據社區,特別是在ISPR中有着悠久的傳統。最近的工作包括,例如,ISPRS-EuroSDR高密度航空圖像匹配3基準,旨在評估傾斜航空圖像的密集匹配方法(Haala,2013Cavegn等人,2014),以及ISPRS城市目標檢測和重建基準測試,其中包含了一些不同的挑戰,如航空圖像的語義分割和三維物體重建(Rottensteiner等人,2013)。

在計算機視覺中,包含數百萬張圖像的非常大規模的基準數據集已經成爲基於學習的圖像解譯任務的標準。已經引入了各種數據集,其中許多是爲特定任務量身定製的,有些是連續幾年作爲年度挑戰的基礎數據集(例如ImageNet、Pascal VOC)。旨在促進研究圖像分類和目標檢測的數據集在很大程度上依賴於從互聯網上下載的圖像。基於網絡的圖像一直是基準發展的的主要驅動力,因爲不需要爲數據集的生成完成昂貴的、專門的攝影活動。雖然這使得可以把基準圖像從數百張擴展到數百萬張,但是通常給這些圖像的註釋都很弱,必須考慮大量的標籤噪聲。此外,人們可以假設,互聯網圖像構成了一個非常普遍的圖像集合,對特定傳感器、場景、國家、目標等的偏袒較小,這使得能夠訓練出更豐富的,泛化更好的模型。

最早成功的大規模圖像目標檢測嘗試之一是超過8000萬張小圖像(32×32像素)的tinyimages(Torralba等人,2008年)。圖像語義分割的一個里程碑和仍然廣泛使用的數據集是著名的Pascal VOC(Everingham et al.,2010)數據集和挑戰,它被用於訓練和測試當今許多著名的、最先進的算法,如(Long et al.,2015,Badrinarayanan et al.,2015)。另一個比較新的數據集是MSCOCO4,它包含3萬個帶有註釋的圖像,這些註釋顧及到了上下文圖像分割,目標識別和給圖像添加說明文字。當今計算機視覺中最流行的基準之一是ImageNet數據集(Deng等人,2009年,Russakovsky等人,2015年),它使卷積神經網絡在計算機視覺中開始流行起來(Krizhevsky等人,2012年)。它包含根據詞彙網絡層次結構組織的超過14×106張圖像,其中單詞被按照認知同義詞分組。

微軟Kinect推出了流行的低成本遊戲設備,由此產生了幾個大型rgb-d圖像數據庫。流行的例子是紐約大學深度數據集V2(Silberman等人,2012年)或SUN RGB-D(Song等人,2015年),它們爲對象分割和場景理解提供標記的RGB-D圖像。與激光掃描儀相比,低成本的結構光rgb-d傳感器具有更短的測量範圍、更低的分辨率,並且由於太陽光的紅外光對投影的傳感器模式的干擾,因此rgb-d傳感器在室外工作狀態很差。

據我們所知,至今不存在公開可用,且同前文所述視覺基準規模大小的激光掃描數據集。因此,許多最近爲體素網格所設計的卷積神經網絡(Brock et al.,2017,Wu et al.,2015)使用了從CAD模型人工生成的數據——ModelNet(Wu et al.,2015),它是一個相當小的人造數據集。因此,最近的集成方法(例如(Brock等人,2017))在ModelNet10上達到97%以上的性能,這清楚地表明由於數據有限,模型過擬合了。

這些現有的少量激光掃描數據集主要是通過移動道路測量設備或機器人(如DUT1(Zhuang等人,2014)、DUT2(Zhuang等人,2015)或KAIST(Choe等人,2013)獲得的,這些數據集較小(<107點),並且不可公開獲取。公開可獲取的激光掃描數據集包括奧克蘭數據集(Munoz等人,2009年)(小於2×106點)、悉尼城市物體數據集(Deuge等人,2013年)、巴黎街夫人數據庫(Serna等人,2014年)和來自IQmulus&TerraMobilita競賽的數據(Vallet等人,2015年)。它們都有一個共同點,那就是使用移動道路測量車獲取的三維激光雷達數據,這種車提供的點密度比我們這種典型的靜態掃描要低得多。它們的數據量也相對較小,以致於監督學習算法很容易過擬合。目前大多數可用的點雲數據集都沒有經過一個全面、透明的評估,該評估可在互聯網上公開、不斷更新,並列出所有提交的基準。

使用本文中提出的semantic3D.net基準,我們旨在縮小這一差距。它提供了最大的有標籤的三維點雲數據集,大約有40億個人工標記的點,且附有噪聲評價,並不斷更新提交的內容。這是第一個全面支持在真正的三維激光掃描數據上進行深度學習的數據集,它裏面每個點都具有有高質量的人工分配的標籤。

3.目標

給定一組點(這裏:來自於靜態地面激光掃描儀的密集掃描),我們希望爲每個點推斷出一個單獨的類標籤。我們提供了三種基線方法,用於代表最近用於該任務的典型分類方法。

i)二維圖像基線:

許多最先進的激光掃描儀也可以爲掃描的場景獲取顏色值甚至整個彩色圖像。彩色圖像可以添加可能有助於分類的其他實物證據。首先,樸素基線只對二維彩色圖像進行分類,而不使用任何深度信息,從而建立了一個鏈接到大量關於二維語義圖像分割的文獻。現代的方法使用深卷積神經網絡作爲工作的基礎。像SegNet(Badrinarayanan等人,2015)這樣的編碼-解碼器架構能夠一次推斷出整個圖像的標籤。深層結構也可以與條件隨機場(CRF)結合(Chen等人,2016)。我們在第3.1節中的基線方法涵蓋了基於圖像的語義分割。

ii)三維協方差基線

一種利用三維信息的更加具體的方法是直接處理點雲。我們使用最新實現的標準分類管道,即從3D(多尺度)鄰域中提取手工製作的特徵,並將其輸入到判別學習算法中。典型特徵基於點鄰域的協方差張量(Demantke等,2011)或隨機直方圖集(Blomley等,2014)來編碼表面特性。另外,高度分佈可以通過使用圓柱鄰域進行編碼(Monnier等人,2012年,Weinmann等人,2013年)。第二種基線方法(第3.2節)代表這一類別。

iii)三維卷積神經網絡(CNN)基線

將深度學習應用於三維點雲是一個相當明顯的擴展,它主要使用體素網格來獲得規則的鄰域結構。爲了有效地處理密度變化很大點雲中的大規模點鄰域,最近的研究使用了自適應鄰域數據結構,如八叉樹(Wu et al.,2015,Brock et al.,2017,Riegler et al.,2017)或稀疏體素網格(Engelcke et al.,2017)。在第3.3節中,我們第三種基線方法是一個直接實現的基本的三維體素網格卷積神經網絡。
在這裏插入圖片描述圖2:第一行:帶有標籤的地面實況投影成圖像。第二行:使用圖像基線進行分類的結果。白色:未標記像素,黑色:沒有相應三維點的像素,灰色:建築物,橙色:人造地面,綠色:天然地面,黃色:低植被,藍色:高植被,紫色:硬景觀,粉色:汽車

3.1二維圖像基線

我們使用三次冪將掃描線的顏色值轉換爲單獨的圖像(沒有深度)。Ground truth標籤也從點雲投影到圖像空間,使得三維點標記任務變成二維RGB圖像的純語義圖像分割問題(圖2)。我們選擇關聯層次字段方法(Ladicky等人,2013年)進行語義分割,因爲它已經證明能夠爲各種任務(例如(Montoya等人,2014年,Ladicky等人,2014年)提供良好的性能,並且在它的最初實現中是有效的。

該方法的工作原理如下:對四種不同類型的特徵texton(Malik et al.,2001)、SIFT(Lowe,2004)、局部量化三值模式(Hussain and Triggs,2012)和自相似性特徵(Shechtman and Irani,2007)進行了密集的逐像素提取。使用標準K-均值聚類,每個特徵類別分別聚類成512個不同的模型,該模型與典型的詞袋錶示相對應。對於一幅圖像中的每一個像素,特徵向量是在200個不同大小的固定矩形集合上的詞袋直方圖的串聯。這些矩形隨機放置在像素周圍的擴展鄰域中。我們使用多類boosting(Torralba et al.,2004)作爲分類器,發現最具鑑別能力的弱特徵,如(Shotton et al.,2006)論文所述。爲了在不丟失銳利對象邊界的情況下添加局部平滑,我們在超像素內部進行平滑,並在其邊界處支持類轉換。按照(Ladicky等人,2013)論文的描述,採用三組由粗到精的參數集合,經過均值偏移(Comaniciu和Meer,2002)提取超像素。利用每個像素的詞袋的表現形式所組成的特徵向量預測重疊超像素可能的類。如(Kohli等人,2008年)這篇文章提出預先在像素和超像素上面進行平滑,再基於像素和超像素的進行分類的分類器,是以概率的方式在一個條件隨機場框架下結合在一起的。關聯使用基於移動生成(Boykov等人,2001)圖割的算法(Boykov和Kolmogorov,2004)和高階勢的適當圖構造(Ladicky等人,2013),找到關聯層次優化問題的最可能解。

3.2三維協方差基線

第二個基線的靈感來自(Weinmann等人,2015年)的論文。它利用多尺度特徵和判別學習,直接從三維點雲中提取類標籤。同樣,我們可以訪問原始實現。該方法使用多尺度鄰域的有效近似,即點雲被亞採樣到多分辨率金字塔中,使得每一層都有恆定的少量鄰域捕獲多尺度信息。多尺度金字塔是通過採用等間距體素網格濾波方法生成的。

在每一層提取的特徵集是Weinmann等人(2013)描述的集合的擴展。它使用每個點鄰域協方差的特徵值和特徵向量的不同組合來獲得不同的幾何曲面特性。此外,添加了基於豎直圓柱鄰域的高度特徵,以強調重力方向的特殊作用(假設掃描線嚮往常一樣與垂直方向對齊)。請注意,我們不使用顏色值或掃描儀的強度。這些在點雲中並不總是可用的,根據經驗我們發現,它們並不能改善方法的結果。作爲分類器,我們使用一個隨機森林,通過網格搜索和五層交叉檢驗找到最優參數。詳情請參閱(Hackel等人,2016年)。

3.3三維卷積神經網絡基線

我們根據最近的VoxNet(Maturana and Scherer,2015)和ShapeNet(Wu etal.,2015)的3D編碼思想設計了點雲分類任務的基線。管道插圖如圖3中所示,

4數據

4.1點雲標註

5評價

6基準統計

7結論與展望

致謝

引用

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章