1種策略就能控制多類模型,華人大二學生提出RL泛化方法,LeCun認可轉發 | ICML 2020

雲棲號資訊:【點擊查看更多行業資訊
在這裏您可以找到不同行業的第一手的上雲資訊,還在等什麼,快來!


如果給你幾十甚至幾百種模型,讓你用1種策略對它們進行訓練,怎麼做?

1

上圖中的這些智能體模型,不僅僅模擬「人」的動作,有些還代表着「四足動物」、「兩足動物」,亦或者是特殊形態的「機器人」的行爲。

智能體,能進行自主活動的硬件或軟件實體。例如,可以是某種智能機器人。

而所有的這些智能體,都能通過1種策略來表達。

通過強化學習,模型中分散的肢體間也能進行消息傳遞,甚至能表示出訓練中沒有發現的模型。

論文在Reddit上po出後,一天之內就獲得了近900熱度。

2

與此同時,Twitter上也獲得了Yann LeCun的轉發。

對於強化學習,LeCun曾經給出過比喻:「如果智能是蛋糕,無監督學習就是那塊蛋糕,有監督學習是糖衣,而強化學習則是糖衣上的櫻桃。」

3

但現在看來,LeCun似乎對於這份強化學習的研究非常感興趣。

畢竟,就個體差異而言,僅通過1個策略達到控制多種不同形狀的智能體,需要模型具有很好的泛化能力。

來看看研究者們是怎麼實現這個策略的。

整體架構原理

首先,將所有智能體放在一起進行訓練。

不同的是,相比於對模型架構進行整體訓練,他們將智能體拆解成多個肢體部分,分別進行訓練。

4

這個策略中權重(πθ)被智能體中的所有肢體部分共享,也就是說,不僅對於其中一個肢體是這樣,其他智能體的肢體也是如此。

爲了確保肢體協調,各肢體間可以進行信息傳遞。

5

每個肢體之間都有自己的位置,傳遞信息的順序基本都遵循由下至上、再由上至下。

6

最後,動作會在向下的信息傳遞中被預測。

整體模型結構如下圖所示。

7

在這期間,圖左的智能體控制器和圖中間擁有共同參數的溝通模塊會被放在一起訓練,學習如何將信息傳遞給右邊的中心控制器。

這樣的策略,被稱爲模塊化共享策略SMP(Shared Modular Policies)。

研究者們希望能瞭解到通過SMP,模型進行信息傳遞的效果。

下圖從左至右分別展示了隨着訓練次數的增加,某一模型從上至下進行信息傳遞的信息量。

可以看見,模型在運動過程中的信息量會有峯值,爲保持模型平衡進行大量信息傳遞。

8

所以,爲了保持平衡,模型在運動過程中將會進行大量信息傳遞,尤其是在「雙腿」邁開時。

而肢體間的這些信息傳遞也是這種學習策略得以泛化模型的關鍵。

訓練效果

從訓練結果來看,即使是有着相似結構的模型,在步態上也能展示出幾乎完全不一樣的效果。

2

如圖所示,圖中紅色圈內的三個模型雖然結構相似,但運動的步態卻幾乎完全不同。

不僅如此,訓練過程中還有意外收穫。

3

研究者們發現在訓練過程中,這種學習策略還生成了一些以前完全沒見過的智能體模型,這些模型可能同時有好幾條腿、或是非常重的手臂。

如果在測試時適當地調整模型結構,這種策略也能很好地將它們保持平衡。

但目前也有一點小問題,如果將某一部分肢體的肌肉放大到超乎常理、或是將腿部完全去掉,可能會導致模型失去平衡。

4

無論如何,這個學習策略所展示出來的模型泛化能力已經足夠引人驚歎。

有網友猜測,興許這是圖神經網絡的一項應用。

5

這真不錯!信息通過肌肉架構傳遞,且擁有共享權重?聽起來GNN能完成得很好。

也有網友表示,這也許是將強化學習應用到電子遊戲和機器人之外的更廣泛領域的一個契機。

6

如果我們可以將強化學習應用到電子遊戲和機器人以外的方向,這會是一次很有意思的研究。

華人一作

這篇論文的第一作者Wenlong Huang,目前在加州大學伯克利分校就讀大二,學習計算機視覺。

7

高中時,他曾與加州大學聖迭戈分校的Zhuowen Tu教授共同研究3D生成模型,目前感興趣的研究方向是強化學習、機器人和計算機視覺。

除此之外,他的業餘愛好也很廣泛,不僅喜歡拉小提琴,也鑽研攝影方向。

【雲棲號在線課堂】每天都有產品技術專家分享!
課程地址:https://yqh.aliyun.com/live

立即加入社羣,與專家面對面,及時瞭解課程最新動態!
【雲棲號在線課堂 社羣】https://c.tb.cn/F3.Z8gvnK

原文發佈時間:2020-07-14
本文作者:蕭簫
本文來自:“量子位公衆號”,瞭解相關信息可以關注“公衆號 QbitAI”

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章