陣列相機光場去遮擋網絡 DeOccNet (WACV2020)

【本文最後更新日期:2020年1月11日】

分享一個 WACV2020 的光場去遮擋的工作 DeOccNet: Learning to See Through Foreground Occlusions in Light Fields。在這個工作中,作者使用陣列相機從不同的視角記錄場景,並對場景的結構進行解析,提出了陣列相機去除前景遮擋成像新方法。作爲領域內首個基於深度學習的去遮擋成像工作,作者提出遮擋物掩膜嵌入法(Mask Embedding)解決了訓練數據缺乏的問題,並建立了仿真與實測數據集,供領域內算法進行測評。代碼和數據集均已開源,研究者可以公開下載

  • 引言

在戰場偵察、公安監視等領域,複雜的前景遮擋會給目標檢測與跟蹤等算法帶來巨大的挑戰。因此,可靠地去除前景遮擋物對於場景的智能感知與智能處理具有重要的意義。陣列相機可以獲取當前場景不同視角處的圖像,在某個視角中被遮擋的光線可以被其他位置的相機捕捉到。利用陣列圖像之間的互補信息可以重建出被遮擋的背景物體,即實現前景遮擋的去除。本文提出了領域內首個針對光場去遮擋(LF-DeOcc)任務的深度學習網絡DeOccNet,Fig. 1展示了本文算法的效果。Fig. 1(a)展示了渲染數據集中場景Syn01的結構,圖中5*5的黃色方塊表示陣列相機,Fig. 1(b)展示了中心子相機獲取的含有前景遮擋物的圖像,Fig. 1(c)展示了論文算法的結果,Fig. 1(d)是Syn01場景對應的無遮擋groundtruth圖像。

雖然近年來基於深度學習的圖像處理方法在計算機視覺領域得到了十分廣泛的應用,但是領域內並沒有針對LF-DeOcc任務的深度學習方法。作者在論文中分析了這一現狀產生的原因,將深度學習方法應用於LF-DeOcc任務時面臨的挑戰總結爲以下三個方面:

  1. LF-DeOcc任務要求網絡在處理高維光場數據的同時,要保持足夠大的感受野並提取高層語義信息,從而實現不同尺度前景遮擋物特徵的提取。
  2. 相比於圖像修復(Inpainting)任務而言,LF-DeOcc任務要求網絡通過解析場景結構(如利用前景與背景的深度差異)實現前景遮擋物的自動分離與去除。
  3. 該領域沒有大規模數據集供算法訓練,用於評測的公開數據集場景也十分有限。

針對以上挑戰,作者提出了相應的解決方案。DeOccNet基於encoder-decoder網絡框架,實現較大的感受野並提取輸入圖像的高層語義特徵;作者將陣列圖像在通道層級聯作爲網絡的輸入,充分利用各個視角的互補信息;對於領域數據集缺乏的問題,本文提出了Mask Embedding方法自動生成訓練數據。本文將80個遮擋物的圖像按照光場結構隨機嵌入至60個公開的光場場景中,生成大量的含有遮擋物的訓練圖像(共1500個場景)供算法訓練。同時,作者建立了用於對算法進行測評的數據集,包含若干仿真場景(使用3dsMax軟件渲染得到)與實際場景(利用相機與掃描臺拍攝得到)。實驗結果表明,算法通過在Mask Embedding方法生成的數據集上進行訓練,能夠學會對場景結構的解析與前景遮擋物的去除,並能夠較好地泛化到實際場景中。

  • DeOccNet網絡結構

DeOccNet網絡將光場子圖像沿通道維級聯作爲輸入,採用encoder-decoder框架進行高層語義信息的提取與處理,skip connection用於在解碼過程中保持低層特徵的一致性。本文采用了殘差空洞金字塔(residual ASPP)模塊在編碼之前獲取更大的感受野,引導網絡對語義信息(如遮擋物)的提取。作者在論文的實驗部分對residual ASPP和skip connection的設計進行了消融實驗,實驗結果驗證了其有效性。

本文采用有監督方式對DeOccNet進行端對端訓練。將含有遮擋物的陣列圖像輸入到網絡中,損失函數定義爲網絡的輸出圖像與訓練集中該場景對應的無遮擋中心視角圖像的均方誤差(MSE)。

  • Mask Embedding訓練集生成方法

DeOccNet的訓練需要大量的遮擋可去除的場景,而當前領域內缺乏足夠的訓練數據。考慮到訓練所需場景數量龐大(10^3數量級),無論是利用設備拍攝實際場景還是利用軟件渲染仿真場景,都十分耗時耗力。作者針對這一問題提出了新的解決方案Mask Embedding,即採用生活中常見的80幅前景遮擋物圖像作爲Mask,將Mask按照光場的結構嵌入至公開數據集的光場中深度較淺的區域,從而構造出含有前景遮擋物的光場圖像供網絡訓練。DeOccNet僅使用Mask Embedding生成的數據進行訓練便可實現對場景結構的解析,並通過disparity的差異去除前景遮擋物。在真實場景上,DeOccNet可以取得較傳統方法與單幀圖像修復方法更爲優異的去遮擋效果。

  • 仿真渲染與實際拍攝數據集

針對領域內測試場景缺乏的問題,作者建立了仿真與實測場景用於對算法進行測評。目前數據集已開源,研究者可以公開下載。

仿真場景利用3dsMax軟件渲染生成,場景的角度分辨率爲5*5,每個場景提供各個視角的遮擋圖像、中心視角遮擋物的二值掩膜(Mask)圖像、以及中心視角的無遮擋groundtruth圖像。由於含有遮擋與無遮擋的中心視角圖像是精確對齊的,以上仿真場景可以用來對算法進行數值評估(quantitative evaluation)。

真實場景通過使用相機對戶外場景拍攝得到。採集真實場景時,作者將Leica相機固定於機械掃描臺上,通過控制掃描臺將相機依次移動至5*5的採樣點處(基線長度3 cm)進行拍攝。通過對圖像的後期校正處理,最終得到5*5視角的遮擋圖像。真實場景不提供無遮擋groundtruth圖像,因此主要用於對算法進行視覺評估(qualitative evaluation)。

  • 實驗結果

作者在論文建立的仿真與實際場景以及公開數據集場景(Stanford CD)上對算法進行了評測,結果如下:

注意到Fig. 6對應的CD場景角分辨率爲5*15,本文將中心視角遮擋圖像複製75次輸入至網絡中,得到結果圖Fig. 6(f)。可以發現算法僅處理中心視角圖像並不能實現去遮擋效果。由此可見,DeOccNet確實是利用disparity的差異來解析場景結構,並利用視角間的互補信息實現遮擋物的去除,這與單幀圖像修復的機制有所區別。

論文中採用L1誤差、峯值信噪比PSNR以及結構相似度SSIM進行數值評價,結果如下表所示。

相比於領域內其他去遮擋算法[11]與單幀圖像修復算法[9](遮擋區域人工標註),DeOccNet算法能夠取得較爲顯著的性能提升。同時,本文對網絡結構中的ASPP模塊以及skip connection做了消融實驗,結果驗證了網絡設計的有效性。

  • 總結與未來工作

論文提出了陣列相機去遮擋成像領域首個深度學習網絡DeOccNet,並通過Mask Embedding方法解決了訓練數據不足的問題。同時,論文建立了若干仿真與實測場景用於算法評測,實驗驗證了算法的有效性。DeOccNet主要利用了陣列相機視角間的互補信息進行前景遮擋的去除,並未充分使用單個視角圖像中的上下文信息。

未來工作可以結合單幀圖像修復算法,綜合利用單幅圖像的上下文信息與視角間的互補信息,進一步提升去遮擋成像的重建精度與視覺效果。同時,可以探索更加逼近實際遮擋情形的訓練集生成方法,進一步提升算法的泛化性能。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章