SIGGRAPH2018論文:深度強化學習教機器人自己穿衣服!(附視頻)


新智元報道 來源:gatech、boingboing.net

編輯:大明

【新智元導讀】讓智能體自己學會穿衣服一直是個難題,除了對衣服的布料的材質模擬存在困難之外,穿衣過程中目標與衣服之間的頻繁複雜的交互也會導致計算成本過高。在Siggraph 2018上,研究人員試圖通過深度強化學習,將布料模擬融入學習框架,教機器人學會自己穿衣服!

隨着AI技術進步的日新月異,現在的機器人越來越智能,但不管是機器人還是虛擬模型,基本都處於“赤身裸體”的狀態,即便是穿了衣服,也是靠着外部的力量或幫助穿上的。

如何讓這些智能體學會自己穿衣服一直是個難題,因爲衣服的布料多種多樣,材質性質各不相同,而且在穿衣過程中,衣服和身體會發生頻繁而複雜的相互作用。這兩點是解決“機器人學穿衣”過程中面臨的最大挑戰。

現在,研究人員正試圖攻克這個難題。在Siggraph 2018上的一篇論文《Learning to Dress: Synthesizing Human Dressing Motion via Deep Reinforcement Learning》中,來自佐治亞理工學院和谷歌大腦的研究團隊描述了他們如何利用人工智能,來教虛擬人如何自己穿衣服。

本文表明,AI能夠利用機器學習工具“自動發現強大的穿衣技能”,並設法訓練出強大的穿衣模型,儘管對衣服布料的模擬計算成本很高。

本文作者表示,讓AI 學會穿衣服的祕訣就是觸覺,可以用於動態調整AI的協調性,以適應褶皺、光滑、或材質詭異的布料。

研究概覽:將布料模擬融入深度強化學習框架

由於人和穿的衣服之間存在着複雜的相互作用,所以創建人物穿衣服的逼真動畫是很具有挑戰性的任務。我們採用無模型深度強化學習(deepRL)方法,實現自動發現由神經網絡表示的、高魯棒性的控制策略。

雖然深度強化學習方案在複雜運動技能的學習方面取得了一些成功,但學習算法的數據特徵與實際任務所需的、計算成本高昂的衣服和布料模擬任務並不一致。

下面是研究人員製作的機器人穿衣視頻演示,一起來看看,一共有3種衣服喲!

利用強化學習教機器人學會自己穿衣服(視頻演示)

本文首次證明,通過設計合適的輸入狀態空間和獎勵函數,可以把對布料的模擬結合到深度強化學習框架中,以便學習強大的穿衣控制策略。

我們利用觸覺信息的顯著表示,來指導虛擬人物穿衣的過程,並將其用於獎勵函數中,在訓練期間提供明確的學習信號。我們發現,爲了學習涉及各種穿衣操作技能的長時間運動序列,比如“抓住T恤衫的邊緣”或者“拉袖子”,有必要將整個穿衣任務分成幾個子任務,並分別學習控制策略。

爲此,本文引入了策略排序算法,該算法匹配從一個任務到輸出分佈的輸出狀態的分佈,用於序列中的下一個任務。我們已經使用這種方法爲幾種穿衣任務生成角色控制器:即穿T恤,穿外套,以及在機器人輔助下穿袖子。

虛擬人在穿T恤衫、外套和醫院的防護服

將穿衣任務分割爲多個子任務

我們提出了一個強化學習框架,來訓練虛擬角色在模擬環境中穿上衣服。我們的方法將穿衣任務分成一系列子任務,這些任務之間的轉換由一個狀態機實現指導。比如,穿上外套這個任務包括以下四個子任務:將袖子套在第一條手臂上,把第二條手臂向後伸,將第二隻袖子套在手臂上,最後將身體重新轉到原來的靜止位置。

子任務控制器的獎勵權重

對於每個子任務,我們制定一個單獨的強化學習問題來學習控制策略。爲了確保這些單獨的控制策略在按順序執行時能夠組成成功的穿衣序列,我們引入了一個策略排序算法,該算法將每個子任務的初始狀態分佈與前一個子任務的最終狀態分佈相匹配。

這樣得到的控制策略可以按照虛擬人與衣服的交互率實現按順序應用。在通過子任務完成標準的狀態機的轉換下,產生多種成功的穿衣動作。

排序控制策略

由於每個子任務都是作爲一個單獨的穿衣過程而制定的,因此在轉換點上直接執行策略往往會失敗。 我們引入了一種策略排序算法,可確保不同策略之間的成功轉換,從而實現按需要延長序列的任務。該算法主要由兩個通道組成,在算法1僞代碼中表示。

策略排序算法示意

部分插入衣服(藍色圓柱體)的手臂相關計算的可視化呈現

虛擬人分別穿T恤、外套和醫院防護服的動作示意圖

最終研究政策的效果評估,x軸表示時間步長

在馬爾可夫決策過程(MDP)中的手臂伸進和靜止姿態的誤差量度的比較

研究結論和未來前景

我們提出了一個系統,通過使用強化學習和物理模擬,學習如何建立虛擬人物穿衣的動畫。在將整個穿衣任務劃分爲可管理控制的多個子任務後,系統會單獨學習每個子任務,將這些任務與狀態機連接,並將每個子任務的輸入狀態分佈與先前子任務的輸出分佈相匹配。

我們發現,仔細選擇對布料觀察結果和獎勵函數,對於這種策略的成功非常重要。我們的方法的結果不僅僅是穿衣序列,而是一個可以在各種初始條件下實現成功穿衣的控制器。

儘管該系統在幾個穿衣任務上取得了成功,但仍有改進的餘地。我們的系統目前執行的上半身的穿衣任務,要想將穿衣任務擴展至下半身,需要將平衡機制納入控制器。

雖然我們建立的衣服觀察空間足以完成所展示的任務,但是看看是否可以訓練端對端控制器,利用模擬視覺來確定衣服的狀態也是很有趣的事情。

我們的基於觸覺的觀察有助於跨越模擬效率和表示能力之間的鴻溝,但更完整的人體觸覺感知模型可能用於各種應用。

最後,使用具有存儲器的控制策略體系結構,可以減少必要子任務的數量,並將已學會的技能實現更大程度的推廣。

參考鏈接及論文:

https://boingboing.net/2018/11/03/body-shaming-ais.html

https://www.cc.gatech.edu/~aclegg3/projects/learning-dress-synthesizing.pdf


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章