學界 | CoRL 2018最佳系統論文:如此雞賊的機器手,確定不是人在控制?

選自arXiv

作者:Dmitry Kalashnikov 等

機器之心編譯

參與:Geek AI、王淑婷

在機器人交互的典型問題機器人抓取任務中,傳統方法通常採用單向執行模式,而不會對抓取結果進行反饋。而在本文介紹的獲得 CoRL 2018 最佳系統論文獎的研究 QT-Opt 中,來自伯克利和谷歌大腦的研究者提出了視覺閉環形式的機器人抓取方法,能通過自監督進行反饋來修正抓取動作,這其實和人類抓取物體的方式很相似。第一下沒抓到?沒關係,挪挪手指就好;東西堆在一起抓不到?沒關係,一巴掌打散再說。此外,該方法還有設置簡單、抗干擾、泛化性強的優點。Jeff Dean 也推薦了這篇論文,讚歎道「We are starting to get a handle on grasping!」。

更多演示:https://sites.google.com/view/qtopt

1 引言

與物體進行交互的操作是機器人技術中最大的開放問題之一:在開放的世界環境中智能地與以前沒有見過的物體進行交互需要可以泛化的感知、基於視覺的閉環控制和靈巧的操作。強化學習爲解決這一問題提供了一個很有前景的途徑,目前強化學習方向上的工作能夠掌握如擊球 [1],開門 [2,3],或投擲 [4] 這樣的單個技能。爲了滿足現實世界中對操作的泛化需求,我們將重點關注離策略算法的可擴展學習,並在具體抓取問題的背景下研究這個問題。雖然抓取限制了操作問題的範圍,但它仍然保留了該問題中許多最大的挑戰:一個抓取系統應該能夠使用真實的感知技術可靠、有效地抓取之前沒有見過的物體。因此,它是一個更大的機器人操作問題的縮影,爲對泛化和多樣化的物體進行交互提供了一個具有挑戰性和實際可用的模型。

現有的很多機器人抓取工作都將任務分解爲感知、規劃和行動階段:機器人首先感知場景並識別合適的抓取位置,然後規劃到達這些位置的路徑 [5,6,7,8]。這與人類和動物的抓取行爲不同,人和動物的抓取行爲是一個動態過程,在每個階段都緊密交織着感知和控制行爲 [9,10]。這種動態閉環的抓取很可能對不可預測的物體物理屬性、有限的感知信息(例如,單目攝像機輸入而非深度)和不精確動作的魯棒性更強。爲長期成功而訓練的閉環抓取系統也可以執行智能的預抓取操作,例如推倒或重新調整物體的位置以更容易地抓取物體。然而,閉環抓取控制的一個主要挑戰是,感知運動循環必須在視覺模式上封閉,而在新的環境設置下很難有效地利用標準最優控制方法。

本文研究了離策略深度強化學習如何能夠利用完全自監督的數據採集方法,獲取閉環的動態視覺抓取策略,從而泛化到測試時沒有見過的物體上。底層末端執行器的運動值是直接從攝像機觀測的原始結果中預測出來的,整個系統在現實世界中使用抓取嘗試進行訓練。雖然深度強化學習的原理在幾十年前就已經被大家知曉 [11,12],但將其應用到一個能夠泛化到新物體上的實用機器人學習算法中,則需要一個穩定、可擴展的算法和大型數據集,以及仔細的系統設計。

圖 1:實驗設置了 7 個機器人,在自動的自監督情況下收集抓取片段。

我們實驗中的實現做了非常簡單的假設:觀測結果來自於機器臂上方的單目 RGB 攝像機(見圖 2),動作由末端執行器的笛卡爾運動和夾持器開閉命令組成。強化學習算法在成功抓起一個物體時得到二值獎勵(正或負),而沒有其它獎勵形式。這一系列的假設使得這種方法可以大規模部署,讓我們能夠在 7 個真正的機器人組成的系統上收集到 580k 的抓取嘗試數據。與文獻 [13,14] 中的大多數強化學習任務不同,該任務的主要挑戰不僅是需要最大化獎勵,而且要有效地將該方法泛化到以前沒有見過的物體上。這需要在訓練過程中使用非常多樣化的物體。

爲了最大限度地利用這種多樣化的數據集,我們提出了一種基於 Q-learning 的連續動作泛化的離策略訓練方法,我們稱之爲 QT-Opt(通過優化實現 Q-function 的目標)。QT-Opt 不同於其它的連續動作 Q-learning 方法 [15,16],後者通常由於 actor-critic 的不穩定性而不穩定 [17,18],QT-Opt 不需要訓練一個顯式的 actor,而是使用對 critic 的隨機優化來選擇動作和目標值 [19,20]。我們的研究表明,即使完全採用離策略訓練,也能超越基於先前研究的強基線,而通過適度的在線策略調優,可以將具有挑戰性的、對之前沒有見過物體的抓取成功率提高到 96%。

圖 2:我們實驗環境下的機器人單元的特寫(左圖)和大約 1000 個視覺和物理特徵上不同的訓練對象(右圖)。每個單元(左)由一個 KUKA LBR IIWA 機器臂、具有兩個手指的夾持器和一個放置在機器臂上方的 RGB 攝像機組成。

我們的實驗從數量和質量上驗證了該方法的有效性。本文提出的方法在一系列訓練中沒有見過的物體上獲得了高成功率,本文的定性實驗表明,這種高成功率是由於系統採用了各種策略,如果沒有基於視覺的閉環控制,這些策略是不可行的:學習到的策略表現出糾正行爲、重新抓取、探索運動以確定最佳的抓取方式、重新調整不可抓取物體的位置,以及其它只有在抓取作爲一個動態的閉環過程時纔可行的特性。

圖 3:QT-Opt 的分佈式強化學習的基本結構(參見 4.2 節)。該模型將從離線數據中加載「狀態-動作-獎勵」三元組,這些離線數據是從在線機器人集合中獲得並存儲下來的(參見第 5 小節)。

論文:QT-Opt: Scalable Deep Reinforcement Learning for Vision-Based Robotic Manipulation

論文地址:https://arxiv.org/pdf/1806.10293.pdf

摘要:在本文中,我們使用一種可擴展的強化學習方法研究了學習基於視覺的動態操作技能的問題。我們在抓取行爲的背景下研究了這個問題,這是機器人操作中一個長期存在的挑戰。

與選擇一個抓取點,然後執行預期的抓取動作的靜態學習行爲不同,我們的方法實現了基於視覺的閉環控制,機器人根據最近的觀測結果不斷更新抓取策略,以優化長期的抓取成功率。爲此,我們引入了 QT-Opt,這是一個可擴展的基於視覺的自監督增強學習框架,它可以利用 580k 的現實世界嘗試抓取的數據來訓練一個帶有 1.2M 參數的深度神經網絡 Q-function,從而執行閉環的真實世界的抓取行爲,該方法可以以 96% 的成功率泛化到對沒有見過的物體的抓取行爲上。

除了獲得了非常高的成功率,我們的方法還表現出與更標準的抓取系統相比截然不用的性質:在只使用機器臂上的攝像頭基於視覺的 RGB 感知的情況下,我們的方法可以自動學習到在物體掉落後重新抓取物體的策略、對物體進行探測從而找到最有效的抓取方式、學習調整物體的位置並且對其它不能抓取的物體上進行預抓取操作、對動態的干擾和擾動作出響應。

表 1:測試物體抓取成功率的定量結果。將使用物體替換(test)和不使用物體替換(bin emptying)兩種情況下的指標來評估策略,後者會顯示前 10、20 和 30 次抓取中的成功率。我們的方法的變體使用了在線策略調優,它的失敗率比先前測試集上的工作低了四倍多,但卻使用了更少的抓取嘗試進行訓練。只使用離策略訓練的變體也大大超過了先前方法的性能。

圖 4:QT-Opt 策略中的八種抓取場景,展示了我們的方法發現的一些策略:預抓取操作(a,b),抓取調整(c,d),抓取動態物體和從干擾中恢復(e,f),在混亂場景中抓取物體(g,h)。

本文爲機器之心編譯,轉載請聯繫本公衆號獲得授權。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章