谷歌AI推出低成本機器人搜索強化學習平臺(ROBEL),硬件代碼全開源

 

 

最近,隨着模擬基準(如dm_control或OpenAI-Gym)的可用性不斷提高以及靈活可擴展的強化學習技術(DDPG,QT-Opt或Soft Actor)的發展,解決機器人控制問題的基於學習的方法取得了顯着發展。

 

儘管通過模擬學習是有效的,但是由於諸如物理現象的不正確建模和系統延遲之類的因素,這些模擬環境在部署到現實世界的機器人時經常遇到困難。這激發了在現實世界中直接在真實物理硬件上直接開發機器人控制解決方案的需求。

 

當前對物理硬件的大多數機器人技術研究都是在成本高,工業質量的機器人(PR2,Kuka臂,ShadowHand,Baxter等)上進行的,這些機器人旨在在受控環境中進行精確,受監控的操作。

 

很多小型實驗室想進行探索強化學習(RL),但研發經費有限的情況下,像這樣一直PR2,售價居然高達40萬美元,加上關稅基本上得300多萬人民幣,面對這樣高昂的設備費用,只能望而卻步。

 

 

此外,這些機器人是圍繞着傳統控制方法設計的,這些控制方法側重於精度,可重複性和易於表徵。這與基於學習的方法形成鮮明對比,該方法對於不完善的感測和促動具有魯棒性,並且要求

(a)高度的彈性以允許在現實世界中的反覆試驗學習,

(b)低成本且易於實現維護以通過複製實現可伸縮性,

(c)可靠的重置機制以減輕嚴格的人工監控要求。

 

 

那麼,好消息來了,谷歌最新發布相關開源機器人讓RL變得簡單和便宜。

 

在即將於CoRL 2019上發表的“ ROBEL:

低成本機器人學習的機器人基準”中,谷歌引入了具有成本效益的機器人的開源平臺和精心設計的基準,旨在促進實際物理硬件的研發。

 

與光學領域的光學平臺類似,ROBEL可以作爲快速實驗平臺,支持各種實驗需求以及新的強化學習和控制方法的開發。 

 

ROBEL由D'Claw和D'Kitty組成,D'Claw是幫助學習靈巧操作任務的三指機器人,而D'Kitty是能夠學習敏捷的腿部運動任務的四腿機器人。

 

如下圖:

三指機器人價格在3500美元左右。

 

這個四足機器人大概在4200美元左右。

 

左:自由度12 D'Kitty; 中:9個自由度D'Claw; 右圖:功能齊全的D'Claw設置D'Lantern。

 

爲了使機器人相對便宜且易於構建,我們將ROBEL的設計基於現成的組件和常用的原型製作工具(3D打印或激光切割)。設計易於組裝,僅需幾個小時即可構建。此處提供詳細的零件清單(帶有CAD詳細信息),組裝說明和入門軟件說明。

 

機器人硬件平臺全部是開源,機器人平臺是低成本的,模塊化的,易於維護的,並且足夠強大,可以從頭開始支持硬件上的強化學習。

 

ROBEL基準

 

谷歌爲D'Claw和D'Kitty設計了適合每個平臺的一組任務,可用於對現實世界中的機器人學習進行基準測試。 

ROBEL的任務定義既包括密集任務目標,也包括稀疏任務目標,並在任務定義中引入了硬件安全性度量,例如,指示關節是否超出“安全”操作範圍或作用力閾值。 

ROBEL還爲所有任務提供模擬器,以促進算法開發和快速原型設計。

D'Claw任務以三種常見的操縱行爲爲中心

  • 姿勢

  • 轉彎

  • 擰緊

 

左:姿勢—符合環境的形狀中心:旋轉—將對象旋轉到指定角度。右:螺釘—連續旋轉象。 

 

我們來看看他們動態圖:

 

三指手形機器人D'Claw,非常適合靈巧的操作

 

四足機器人

 

它的三種基準測試動作:

  • 站立

  • 定向

  • 行走

     

    左:站立—直立。 居中:東方—使標題與目標對齊。 右:步行—移至目標。

     

     

 

谷歌針對這些基準任務中的每一個,評估了幾種深度強化學習方法的課程(基於策略的,禁用策略的,演示加速的,監督的)。

 

Robel還爲所有這些基準測試任務提供模擬器,幫助研究人員開發算法和快速原型。

 

可復現,很魯棒

評估結果和最終策略作爲基線包含在軟件包中,以進行比較。

完整的任務詳細信息和基準性能可在技術報告中找到。

重現性和魯棒性ROBEL平臺具有強大的功能,可以直接進行硬件培訓,迄今已積累了超過14,000個小時的實際經驗。

 

一年來,這些平臺已經非常成熟。由於設計的模塊化,維修非常簡單,幾乎不需要領域專業知識,從而使整個系統易於維護。爲了建立平臺的可複製性和基準的可重複性,兩個不同的研究實驗室分別對ROBEL進行了研究。

 

本研究僅使用軟件分發和文檔。使用ROBEL的設計文件和組裝說明,兩個站點都可以複製兩個硬件平臺。基準任務都在兩個站點上構建的機器人上進行了培訓。

 

在下圖中,我們看到在兩個不同地點建造的兩個D'Claw機器人不僅展現出相似的訓練進度,而且收斂到相同的最終性能,從而確立了ROBEL基準的可重複性。

SAC對在不同實驗室位置開發的兩個真實D'Claw機器人執行任務的訓練性能。

 

兩條訓練曲線幾乎重合。換言之,在不同地點製造的兩個機器人不僅表現出相似的訓練進度,而且最終收斂到相同的性能水平。

 

總結

總之,ROBEL平臺是低成本,強大,可靠的,旨在滿足新興的基於學習的範式的需求,這些範式需要可伸縮性和彈性。

相關論文源碼下載地址:關注“圖像算法”微信公衆號

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章