Pix2Pose開源:用於6D姿勢估計的對象的像素座標迴歸的算法

 

作者

介紹

本文主要解決了遮擋、對稱和無紋理的問題,提出了一種新的姿態估計方法pix2pose,它可以在無紋理模型的情況下預測每個目標像素的三維座標,並設計了一個自動編碼器來估計每個像素的三維座標和期望誤差。利用像素級預測生成2D-3D之間的對應關係,利用RANSAC迭代PnP算法直接計算姿態。該方法利用生成性對抗訓練對遮擋部位進行精確覆蓋,從而達到對遮擋的魯棒性。同時,提出了一種新的損耗函數變壓器損耗,用於將預測的姿態引導到最近的對稱姿態來處理對稱目標。

 

雖然深度圖可以提供精確的三維像素座標,但獲得深度圖並不容易。大量的姿態估計依賴於物體的紋理三維模型,這就需要使用三維掃描設備來生成模型。但是,它不適用於沒有紋理三維模型的場。

 

以前處理對稱對象的工作:在渲染訓練圖像時限制姿勢的範圍,或者對於帶註釋的真實圖像,將範圍外的姿勢轉換爲範圍內的對稱姿勢。這種方法適用於單軸對稱的物體,只需忽略繞軸的旋轉。

 

然而,BB8指出,當只有有限數量的對稱姿勢時,很難確定視圖邊界附近的姿勢。

 

如果包圍盒相對於軸具有對稱角度π,並且視圖在0和π之間,則π+α(α≈0;α>0)處的姿勢必須轉換爲α處的對稱姿勢,即使α足夠小,使得外觀非常接近π位置的姿勢。

 

pix2pose通過隱式估計被遮擋像素的3D座標來實現魯棒性。使用無紋理三維模型從RGB圖像返回像素級三維座標。新的損失函數處理具有有限模糊視圖的對稱對象。

 

缺點

  1. 利用CNN方法直接預測投影點的三維包、視點和四元數變換。這些方法是直接計算的。其缺點是缺少相應的關係,無法生成多個姿態假設,用於遮擋目標的魯棒估計。對稱對象通常限制視點的範圍,這將增加額外的處理。例如,BB8對視圖範圍進行分類。PoseCNN計算模型與估計姿勢和標記姿勢中最近點之間的平均距離。但是,找到最近的三維點是很耗時的。

  2. 特徵匹配方法:AAE只使用RGB圖像無監督訓練姿勢的隱式表示。隱式表示可以接近任何對稱視圖。但是,如果給定一個好的旋轉估計值,則很難使用渲染模板指定三維平移。二維邊界框的大小用於計算三維平移的z分量。一旦二維邊界框出現小錯誤,將影響三維平移。

  3. 預測物體空間中像素或局部形狀的三維位置。通過將三維座標返回到每個像素並預測類別。這種方法比較慢。作者使用一個獨立的二維檢測網絡來提供目標的感興趣區域。

  4. 四.使用自編碼生成模型以對模型進行去噪並恢復圖像中丟失的部分。作者用GAN訓練了一個自編碼網絡,該網絡能準確地將彩色圖像轉換爲圖像到圖像轉換等座標值,並能恢復圖像繪製等被遮擋部分。

 

創新點

  • 提出了一種新的框架:pix2pose,它使用無像素的三維模型從RGB返回像素級的三維座標。

  • 提出了一種新的損耗函數:transformer loss,用於處理具有有限模糊視圖的對稱對象。

  • 在LineMOD、LineMOD Occlusion和T-Less上,即使遇到遮擋和對稱問題,效果也很差。


網絡結構

網絡輸入裁剪後的圖像爲,輸出爲目標座標系中每個像素的歸一化三維座標I3D和每個預測的估計誤差Ie。Ie使用每個像素作爲置信水平,在進行姿態計算之前直接確定內點和外點像素。

圖2. Pix2Pose的網絡結構和訓練管道的概述

目標輸出包括被遮擋部分的座標的預測。由於座標由三個值組成,並且與RGB值相似,因此可以將輸出視爲彩色圖像。通過在地面真值位姿中繪製顏色座標模型,可以得到地面真值。輸出如下所示:

 

圖3.將3D模型轉換爲顏色座標模型的示例。

即將每個頂點的歸一化座標直接映射到顏色空間中的紅、綠、藍值,建立每個像素的2D-3D對應關係,不需要特徵匹配。

 

卷積核和前四個卷積層的大小與AAE相同。

 

爲了保證底層特徵映射的細節,將前三層的半通道輸出複製到解碼器的相應對稱層,以增加剩餘連接。使邊界附近的像素估計更精確。

 

 

 

每個卷積層和反捲積層的卷積核大小固定在5×5。編碼器和解碼器之間有兩個完全連接的層。除了最後一層批處理和激活leakyReLU函數外,所有中間層的輸出都是標準化的。

 

在最後一層,三個通道的輸出和激活函數tanh生成三維座標圖像,單通道和激活函數sigmoid的輸出估計期望誤差Ie。

 

損失函數

 

利用三維座標迴歸方法重建目標圖像時,採用每個像素的L1平均距離。由於對象的像素比背景更重要,因此對象遮罩的誤差乘以β因子乘以遮罩中的權重誤差。基本重建損失:

其中n爲像素數,Igt爲目標圖像的第i個像素,M爲目標圖像中完全可見對象的遮罩,遮罩還包含遮擋部分,用於預測遮擋對象的不可見部分的值,從而對遮擋對象進行穩健估計。

 

 

上述損失不能處理對稱對象,因爲它懲罰了三維空間中距離較大的像素,並且沒有對稱的先驗知識。將三維變換矩陣與目標圖像相乘,可以將每個像素的三維座標變換爲對稱姿態。使用候選對稱姿勢中誤差最小的姿勢計算損耗函數,transformer loss:

Rp是從一個姿勢到一個對稱姿勢的變換。該損失函數適用於對稱姿態數目有限的目標。

 

transformer loss的效果如下:

圖4.使用T-Less中的obj-05的對稱對象相對於z軸旋轉的重建損耗的變化

從圖中可以看出,L1損耗在π附近產生較大誤差;變壓器損耗在0~π範圍內產生最小值,預計obj-05的對稱角爲π。

 

預測誤差計算預測圖像與目標圖像之間的差,誤差預測損失:

GAN網絡可以利用來自另一個場的圖像在目標場中生成更精確和真實的圖像。本文將RGB圖像轉換成三維座標圖,利用GAN網絡實現。鑑別器網絡可以區分三維座標圖像是由模型渲染的還是估計的。GAN網絡的損耗函數爲:

 

其中D是認證網絡。

 

總損失函數爲:

 

λ1和λ2用於平衡不同的任務。後面提到了λ1=100和λ2=50。

 

姿態預測

 

首先使用每個邊框的中心、寬度和高度裁剪感興趣的區域,將輸入大小調整爲128×128px,然後乘以1.5,以防止裁剪區域包含遮擋部分。本文的姿態預測分爲兩個階段,如下圖所示:

 

圖6.姿勢估計過程的示例。

第一階段:由於二維目標檢測方法的不同,可以對目標進行平移,使邊界框與目標中心對齊,消除背景和不確定像素。

 

預測的座標圖像I3D通過獲取非零值像素來指定包括遮擋部分的對象像素。如果像素的誤差預測大於外點閾值θo,則利用預測誤差去除不確定像素。目標的有效遮罩由非零像素單位和誤差小於θo的像素計算,包圍盒的新中心由有效遮罩的質心確定。

 

第一階段的輸出是經過優化的輸入,它只包含從新邊界框裁剪的有效遮罩的像素。當誤差預測小於外點閾值θo時,細化後的輸入可以包括遮擋部分,這意味着儘管遮擋,這些像素的座標仍然容易預測。外點閾值θo由三個值決定,目的是包含更多的可見像素,並使用人工遮擋訓練圖去除噪聲像素。

 

第二階段:利用第一階段的細化圖像預測最終的姿態和期望誤差。當預測誤差大於內點閾值θi時,三維座標樣本中的黑色像素指示該點被移除,即使該點具有非零座標值。換言之,使用座標值非零且誤差預測小於閾值θi的像素來構造2D-3D對應。

 

圖像中的每一個像素都已經有了物體座標中三維點的值,所以二維圖像座標與預測的三維座標直接對應。然後,利用RANSAC的PnP算法,通過最大化內點個數迭代計算最終姿態。內點的二維投影誤差小於閾值θre。

 

pix2pose對T-LESS數據集的評價具有顯著的優勢,因爲T-LESS提供了一個無紋理的CAD模型,而且大多數對象是對稱的,這在工業領域更爲常見。

 

作者從真實圖像中提取物體的圖像,並將其粘貼到COCO數據集中。對圖像進行顏色增強後,對目標與背景之間的邊界進行模糊處理,使邊界平滑。背景圖像用於替換部分對象區域以模擬遮擋。最後,對增強後的彩色圖像和目標座標圖像進行隨機旋轉。

 

利用Resnet-101的快速R-CNN和Resnet-50的Retinanet對檢測到的目標類別進行預測,並利用COCO數據集的預訓練權值對網絡進行初始化。

 

實驗和結果

在LineMOD數據集上的結果如下圖:

在不使用求精的方法中,作者的方法最適用於對稱對象。

 

LineMOD Occlusion數據集的結果如下:

pix2pose的效果明顯優於yolo-6d,在8種物體中有3種效果sota。

 

T-LESS數據集的結果如下:

 

 

 

可以作者的方法優於現有的RGB和RGB-D方法。

 

 

結論

本文提出了一種新穎的架構Pix2Pose,用於從RGB圖像進行6D對象姿態估計。Pix2Pose解決了姿勢估計過程中出現的一些實際問題:難以生成具有高質量紋理的真實世界3D模型以及對被遮擋和對稱對象進行可靠的姿勢估計。通過對三個具有挑戰性的基準數據集進行的評估表明,Pix2Pose在解決上述問題時明顯優於最新方法。我們的結果表明,許多失敗案例與訓練圖像或增強過程未充分覆蓋的看不見的姿勢有關。因此,未來的工作將研究改善數據增強的策略,以使用階次真實圖像來改善估計性能,從而更廣泛地覆蓋姿勢變化。

 

論文地址:

https://arxiv.org/abs/1908.07433

源碼地址:

https://github.com/kirumang/Pix2Pose

 

更多論文地址源碼地址:關注“圖像算法”微信公衆號

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章