NVIDIA研究員如何進行機器人的抓取研究(附Deep Object Pose Estimation 代碼)

英偉達的機器人研究人員開發了一種基於深度學習的新系統,該系統允許機器人在其環境中感知家居物體,以獲取物體並與之互動。通過這種技術,機器人能夠對已知的家用物體進行簡單的拾取操作,比如把一個物體交給一個人,或者從一個人的手中抓住一個物體。

這項研究基於英偉達研究人員之前的研究成果,允許機器人通過標準的RGB攝像機精確推斷周圍物體的位置。瞭解場景中物體的3D位置和方向(通常被稱爲6自由度至關重要,因爲它允許機器人操縱物體,即使這些物體每次不在同一個位置。

英偉達(NVIDIA)首席研究科學家斯坦•伯奇菲爾德(Stan Birchfield)表示:“我們希望機器人能夠以安全和熟練的方式與環境互動。”他解釋說:“通過我們的算法和一張圖像,機器人可以推斷出一個物體的三維姿態,從而抓住並操縱它。” 

該算法比目前的方法表現得更加健壯,其目的是解決計算機視覺和機器人技術上的脫節問題,也就是說,目前大多數機器人不具備處理環境干擾所需的感知能力。這項工作很重要,因爲這是計算機視覺領域的第一次,一種只在合成數據(由計算機生成)上訓練的算法,能夠打敗在真實圖像上訓練的最先進的網絡,在標準基準的幾個對象上進行物體姿態估計。合成數據比真實數據具有優勢,因爲它可以爲深層神經網絡生成幾乎無限數量的標記訓練數據。

伯奇菲爾德解釋說:“如今銷售的大多數工業機器人缺乏感知能力,它們對周圍的世界沒有真正的感知能力。”“我們正在爲下一代機器人奠定基礎,我們離合作機器人的工作又近了一步。” 

通過在DGX站上使用NVIDIA Tesla V100 gpu,結合cudnn加速PyTorch深度學習框架,研究人員訓練了一個深度神經網絡,使用由NVIDIA爲虛幻引擎開發的定製插件生成的合成數據。這個插件可以讓其他研究人員公開使用。“具體來說,我們使用非真實感領域隨機(DR)數據和真實感數據的組合來利用兩者的優勢,”研究人員在論文中說。“這兩種類型的數據相互補充,產生的結果比任何一種單獨獲得的結果都要好得多。”合成數據還有一個額外的優點,那就是它避免了對特定數據集分佈的過度擬合,從而產生了一個對光照變化、相機變化和背景有很強魯棒性的網絡。

在NVIDIA TITAN X GPU上進行了推斷。推理代碼也可以公開使用(點擊閱讀原文可以訪問源代碼)。

“我們已經證明,一個只接受合成數據訓練的網絡,與接受真實數據訓練的網絡相比,能夠獲得最先進的性能,並且由此產生的姿態對於機器人操作來說具有足夠的準確性。”這項研究將在瑞士蘇黎世舉行的機器人學習會議上發表。

英偉達的團隊由研究人員喬納森·特倫布萊(Jonathan Tremblay)、唐圖(Thang To)、巴拉庫瑪·桑達林加姆(Balakumar Sundaralingam)、於翔(Yu Xiang)、迪特爾·福克斯(Dieter Fox)和斯坦·伯奇菲爾德(Stan Birchfield)組成。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章