6D姿態估計算法彙總（上）

前言

本文首發於公衆號【3D視覺工坊】，原文請見6D姿態估計算法彙總（上），更多幹貨獲取請關注公衆號~

1、DenseFusion: 6D Object Pose Estimation by Iterative Dense Fusion (CVPR2019)

原文鏈接：https://arxiv.org/abs/1901.04780
代碼鏈接：https://github.com/j96w/DenseFusion

主要思想：用於從RGB-D圖像中估計一組已知對象的6D位姿，分別處理兩個數據源，並使用一種新的dense fusion network來提取像素級的 dense feature embedding，並從中估計姿態。實驗結果表明，該方法在YCB-Video和Linemod兩種數據集上均優於現有的方法。論文還將所提出的方法應用到一個真實的機器人上，根據所估計的姿態來抓取和操縱物體。

本文主要有兩點貢獻：

1、提出了一種將RGB-D輸入的顏色和深度信息融合起來的基礎方法。利用嵌入空間中的2D信息來增加每個3D點的信息，並使用這個新的顏色深度空間來估計6D位姿。

2、在神經網絡架構中集成了一個迭代的微調過程，消除了之前後處理ICP步驟的依賴性。

實驗結果：

2、PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation

論文鏈接：https://arxiv.org/pdf/1812.11788.pdf
代碼鏈接：https://github.com/zju3dv/pvnet

本文提出採用Pixel-wise Voting Network (PVNet)來回歸指向關鍵點的像素單位向量，並通過這些向量使用RANSAC對關鍵點位置進行投票，從而可以抗遮擋或截斷。進一步地，這種表示提供了關鍵點位置的不確定性，PNP解算器又可以進一步利用這些不確定性。

主要貢獻點：

1、提出了PVNet（pixel-wise voting network），它可以學習到一個指向2D
keypoint的向量場表示，即便在遮擋和截斷的情況下；作者的創新之處–能夠學習到十分robust的2D keypoints。

2、基於PVNet得到的稠密預測，作者用了一種基於關鍵點分佈的PnP算法來從2D keypoints分佈求取(R,t)位姿。

實驗結果：

3、Normalized Object Coordinate Space for Category-Level 6D Object Pose and Size Estimation(CVPR2019)

論文鏈接：https://arxiv.org/abs/1901.02970
代碼鏈接：https://github.com/hughw19/NOCS_CVPR2019

本文的目標是估計RGB-D圖像中從未見過的物體實例的6D位姿和尺寸。與“實例級”6D位姿估計任務相反，作者假設在訓練或測試期間沒有精確的CAD模型可用。爲了處理給定類別中不同的和從未見過的物體實例，作者引入了標準化物體座標空間（簡稱NOCS），即同一個類別中的所有物體實例使用一個共享的標準模型來表示。然後，通過訓練神經網絡來推斷觀察到的像素與共享標準模型的對應關係以及其他信息，例如類別標籤和mask。通過將預測圖像與深度圖相結合，共同估計雜亂場景中多個物體的6D位姿和尺寸。爲了訓練網絡，作者提出了一種新的上下文感知技術來生成大量帶註釋的混合現實數據。爲了進一步改進模型並評估它在真實數據上的性能，作者還提供了一個完全註釋的真實場景下的數據集。大量實驗表明，該方法能夠魯棒地估計真實場景中從未見過物體的位姿和大小。

主要貢獻：

1、使用一個共享的標準座標空間（NOCS）作爲參考系來表示同一類別中的所有物體實例。

2、提出一個可以同時預測物體類別標籤、mask和NOCS圖的CNN，將NOCS圖與深度圖進行對應來估計從未見過物體的位姿和大小。

3、使用空間上下文感知的混合現實方法來自動生成大量數據用來訓練和測試。

實驗結果：

4、Pix2Pose: Pixel-Wise Coordinate Regression of Objects for 6D Pose Estimation（ICCV2019）

論文鏈接：https://arxiv.org/abs/1908.07433

主要思想：由於遮擋和對稱性等問題，僅使用RGB圖像估計物體的6D姿態仍然具有挑戰性。如果沒有專家知識或專業的掃描設備，也很難構建具有精確紋理的三維模型。爲了解決這些問題，我們提出了一種新的位姿估計方法Pix2Pose，它可以在沒有紋理模型的情況下預測每個目標像素的三維座標。設計了一種自動編碼器結構來估計三維座標和每個像素的期望誤差。然後將這些像素級預測用於多個階段，形成2D-3D對應關係，用RANSAC迭代的PnP算法直接計算姿態。我們的方法通過利用最近在生成性對抗訓練中的成果來精確地恢復被遮擋的部分，從而對遮擋具有魯棒性。此外，提出了一種新的損耗函數變壓器損耗，通過將預測引導到最接近的對稱姿態來處理對稱目標，對包含對稱和遮擋目標的三個不同基準數據集的計算表明，我們的方法優於僅使用RGB圖像的最新方法。

本文的主要貢獻：

1、提出了一種新的6D姿態估計框架Pix2Pose，該框架在訓練過程中使用無紋理的3D模型從RGB圖像中穩健地迴歸出目標的像素級3D座標。

2、一種新的損耗函數：transformer loss，用於處理具有有限個模糊視圖的對稱對象。

3、在LineMOD、LineMOD Occlusion和TLess三個不同數據集上的實驗結果表明，即使對象是被遮擋或對稱的，Pix2Pose也優於最新的方法。

實驗結果：

5、Deep-6DPose: Recovering 6D Object Pose from a Single RGB Image

論文鏈接：https://arxiv.org/abs/1802.10367v1

主要思想：僅從RGB圖像中檢測物體及其6D姿態是許多機器人應用的重要任務。雖然深度學習方法在視覺目標檢測和分割方面取得了顯著的進展，但目標姿態估計任務仍然具有挑戰性。本文介紹了一個端到端的深度學習框架deep-6DPose，它可以從單個RGB圖像中聯合檢測、分割和恢復對象實例的6D姿態。特別地，我們將最新的實例分割網絡Mask R-CNN擴展到一個新的姿態估計分支，直接回歸6D目標姿態，而不需要任何後處理。我們的關鍵技術貢獻是將姿態參數解耦爲平移和旋轉，以便通過李代數表示來回歸旋轉。由此產生的姿態迴歸損失是微分的，不受約束的，使訓練變得容易處理。在兩個標準位姿基準數據集上的實驗表明，我們提出的方法與目前最先進的基於RGB的多階段位姿估計方法相比，具有更好的性能。重要的是，由於端到端的架構，Deep-6DPose比競爭對手的多階段方法快得多，提供了10 fps的推理速度，非常適合機器人應用。

實驗結果：

6、Multi-Task Template Matching for Object Detection, Segmentation and Pose Etimation Using Depth Images（ICRA2019）

論文鏈接：https://ieeexplore.ieee.org/document/8794448

主要思想：在有限樣本數下，模板匹配可以準確估計新目標的姿態。然而，遮擋物體的姿態估計仍然是一個挑戰。此外，許多機器人應用領域遇到深度圖像比顏色圖像更適合的無紋理對象。本文提出了一種新的多任務模板匹配（MTTM）框架，該框架在預測分割掩模的同時，從深度圖像中找到目標物體最近的模板，並利用目標區域的相同特徵映射實現模板與被檢測物體在場景中的位姿變換。提出的特徵比較網絡通過比較模板的特徵映射和場景的裁剪特徵來計算分割遮罩和姿態預測。該網絡的分割結果通過排除不屬於目標的點，提高了姿態估計的魯棒性。實驗結果表明，儘管MTTM方法僅使用深度圖像，但在分割和姿態估計方面優於基線方法。

主要創新點：

1、提出一個新的基於深度的框架：MTTM，通過與模板進行近鄰匹配，使用共享的特徵圖來預測分割mask和物體的位姿。

2、不需要將物體與場景對齊來生成mask。

3、這種方法優於使用RGB的baseline方法。

實驗結果：

7、Real-Time Seamless Single Shot 6D Object Pose Prediction（CVPR2018）

論文鏈接：https://arxiv.org/abs/1711.08848
代碼鏈接：https://github.com/Microsoft/singleshotpose

主要思想：我們提出了一種單階段方法來同時檢測RGB圖像中的一個物體並預測其6D姿態，不需要多個階段或檢查多個假設。不像最近提出的一些單階段技術，它只預測一個近似6D的姿勢，然後必須細化，我們是足夠精確的，不需要額外的後處理。它的速度非常快，在Titan X（帕斯卡）GPU上每秒50幀，因此更適合實時處理。我們的方法的關鍵部分是一個新的CNN架構，直接預測對象的3D邊界框的投影頂點的2D圖像位置，然後用PnP算法估計物體的6D姿態。我們的單目標和多目標姿態估計方法在LINEMOD和OCCLUSION數據集上明顯優於其他最近基於CNN的方法。

主要貢獻：論文的主要貢獻是一個新的網絡架構，即一個快速和準確的單階段6D姿勢預測網絡，不需要任何後處理。它以無縫和自然的方式擴展了用於二維檢測的單階段CNN結構去執行6D檢測任務。實現基於YOLO，但該方法適用於其他單階段檢測器，如SSD及其變體。

實驗結果：

8、SSD-6D: Making RGB-Based 3D Detection and 6D Pose Estimation Great Again

論文鏈接：https://arxiv.org/abs/1711.10006v1
代碼鏈接：https://github.com/wadimkehl/ssd-6d

主要思想：提出了一種新的基於RGB數據的三維模型實例檢測和6D姿態估計方法。爲此，我們擴展了流行的SSD範式，以覆蓋完整的6D姿勢空間，並僅對合成模型數據進行訓練。我們的方法可以與當前最先進的方法在多個具有挑戰性的RGBD數據集上競爭或超越。此外，我們的方法在10Hz左右，要比相關的其它方法快很多倍。

主要貢獻：

（1）一個僅利用合成三維模型信息的訓練階段
（2）模型位姿空間的分解，便於對稱性的訓練和處理
（3） SSD的一種擴展，產生2D檢測並推斷出正確的6D姿勢
實驗效果：

9、Pose-RCNN: Joint object detection and pose estimation using 3D object proposals

論文鏈接：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7795763

主要思想：本文提出了一種利用三維數據計算出的方案在單階段深層卷積神經網絡中進行聯合目標檢測和方向估計的新方法。對於方位估計，我們通過幾個精心設計的層來擴展R-CNN結構。介紹了兩種新的目標proposals方法，即利用立體數據和激光雷達數據。我們在KITTI數據集上的實驗表明，通過合併兩個領域的proposal，可以在保持低proposal數量下的同時實現高召回率。此外，在KITTI測試數據集的cyclists簡單測試場景中，我們的聯合檢測和方向估計方法優於最新方法。

實驗結果：

6D姿態估計算法彙總（上）

前言

1、DenseFusion: 6D Object Pose Estimation by Iterative Dense Fusion (CVPR2019)

2、PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation

3、Normalized Object Coordinate Space for Category-Level 6D Object Pose and Size Estimation(CVPR2019)

4、Pix2Pose: Pixel-Wise Coordinate Regression of Objects for 6D Pose Estimation（ICCV2019）

5、Deep-6DPose: Recovering 6D Object Pose from a Single RGB Image

6、Multi-Task Template Matching for Object Detection, Segmentation and Pose Etimation Using Depth Images（ICRA2019）

7、Real-Time Seamless Single Shot 6D Object Pose Prediction（CVPR2018）

8、SSD-6D: Making RGB-Based 3D Detection and 6D Pose Estimation Great Again

9、Pose-RCNN: Joint object detection and pose estimation using 3D object proposals

公司剛入職了一名 Java 中級開發，短短 4 行代碼居然湊齊了 3 個 bug！我哭了~~

公衆號5月C#/.NET熱文一覽

git 下載大陸鏡像地址

超詳細的計算機視覺競賽彙總

3D點雲分割算法彙總

人工智能知識體系的學習路線（南京大學人工智能學院本科生培養體系）

醫學圖像數據集彙總

基於點雲方式的6D姿態識別

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結