谷歌和UC伯克利聯合發佈機器人深度RL算法SAC,機器人2小時學會行走

深度強化學習(RL)使得直接從現實世界中獲得的經驗和交互中實現機器人行爲完全自主學習成爲可能,因爲它能夠使用通用神經網絡表示來處理複雜的感知輸入。然而,許多現有的RL算法需要數天或數週(或更多)的真實數據才能收斂到期望的行爲。此外,這樣的系統可能難以在複雜的機器人系統(例如腿式機器人)上部署,因爲它們在探索階段很容易被損壞,超參數設置可能難以調整,而且各種安全方面的考慮也可能會引起諸多限制。

我們最近與加州大學伯克利分校合作,發佈了Soft Actor-Critic(SAC),這是一種穩定而有效的深度RL算法,適用於真實世界的機器人技能學習,與機器人實驗的要求完全一致。重要的是,SAC的效率足以在幾個小時內解決實際的機器人任務,並且可以在僅有一組超參數的各種環境中工作。下面,我們將討論SAC背後的一些研究,並介紹我們最近的一些實驗。

真實世界機器人學習的要求

真實世界的機器人實驗面臨一些重大的挑戰,例如由於硬件故障和手動重置導致的數據流經常中斷,爲避免機器人的機械磨損而進行的平滑工作,因爲算法及其實現會由於機械磨損而受到限制,包括但不僅限於):

  • 良好的樣品效率可以減少學習時間
  • 需要調整的超參數數量最少
  • 重用已經收集的不同場景數據(稱爲離策略學習)
  • 確保學習和實驗不會損壞硬件

Soft Actor-Critic

Soft Actor-Critic基於最大熵強化學習,這個框架旨在最大化預期獎勵(標準的RL目標)並最大化策略的熵。熵越高的策略隨機性更強,這意味着最大熵強化學習更喜歡隨機性強但可以獲得高回報的策略。

爲什麼這對機器人學習來說很重要?最明顯的原因是針對最大熵優化的策略更加健壯:如果策略在訓練期間能夠容忍高度隨機的行爲,則更有可能在測試時成功響應意外的擾動。然而,更微妙的原因是最大熵的訓練可以提高算法對超參數的健壯性和樣本效率(瞭解更多信息,請參閱此BAIR博客文章本教程

Soft Actor-Critic通過學習將狀態映射到動作的隨機策略和估計當前策略的目標值的Q函數來最大化熵獎勵,並使用近似動態編程來對其進行優化。這樣,SAC將目標視爲一種獲得更好的強化學習算法的基本方法,這些算法性能穩定,並且樣本效率足以適用於真實世界的機器人應用程序。有關技術細節,請參閱我們的技術報告

SAC的性能

我們在兩項任務上評估 SAC 的性能:1)使用Ghost Robotics 的 Minitaur 機器人進行四足行走,以及2)使用三指 Dynamixel Claw 旋轉閥門。學習行走是一項重大挑戰,因爲機器人是欠驅動的,因此必須精確地平衡腿上的接觸力以驅動機器人前進。未經訓練的策略可能導致機器人失去平衡而摔倒,而摔倒次數過多最終會損壞機器人,這使得樣本有效的學習變得至關重要。

我們在平坦的地面上訓練這些策略,隨後在不同的地形和障礙物上進行了測試。原則上,利用SAC 學習的策略應該對於測試時間擾動是穩健的,因爲其被訓練爲熵最大化(即輸入最大噪聲)。實際上,我們觀察到使用此方法學習的策略對這些擾動是穩健的,而無需任何額外的學習。
image
image
image

(在 Minitaur 機器人上使用 SAC 學習走路的展示。有關學習過程的完整視頻,請訪問我們的項目網站

而操作任務需要機械手臂旋轉閥門狀物體,使彩色樁釘朝右,如下圖所示。由於感知上的挑戰和機械手臂有9度的自由活動空間,該任務非常具有挑戰性。爲了感知閥門,機器人必須使用右下方插圖中顯示的原始 RGB 圖像。每次實驗,閥門的初始位置被隨機均勻地重置,迫使策略學習使用原始RGB圖像來感知當前的閥門方向。
image

SAC 迅速地完成了這兩項任務:Minitaur 學會運動需要 2 個小時,而通過圖像觀察閥門旋轉任務需要 20 個小時。我們還在爲提供圖像,而是實際閥門位置作爲策略的觀察對象,學習了此情況下閥門旋轉任務的策略。SAC 可以在 3 小時內學習這個更簡單的閥門任務。爲了進行比較,先前的工作使用自然策略梯度在沒有圖像的情況下,7.4 小時內學習相同任務。

結論

我們的工作表明,基於最大熵框架的深度強化學習可以應用於學習現實世界環境中的機器人技能。由於這些策略是直接從現實世界中學習的,因此它們表現出對環境變化的健壯性,這非常難得。結果還表明,我們可以直接從高維圖像觀察中學習,這是典型機器人技術面臨的重大挑戰。我們希望,SAC 的發佈有助於其他研究團隊在未來採用深度 RL 來處理更復雜的現實任務。

有關更多技術細節,請訪問BAIR博客文章,或閱讀早期預印本和更完整的算法詳解。你還可以在GitHub上找到具體的實現方法 https://github.com/rail-berkeley/softlearning

致謝

此研究由谷歌和加州大學伯克利分校合作完成。感謝所有參與人,包括Sehoon Ha,Kristian Hartikainen,Jie Tan,George Tucker,Vincent Vanhoucke和Aurick Zhou。

原文鏈接:https://ai.googleblog.com/2019/01/soft-actor-critic-deep-reinforcement.html

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章