伯克利智能體觀看視頻片段學習動作技能,無需手動標註

編譯:chux

出品:ATYUN訂閱號

無論是像洗手這樣的日常動作還是驚人的雜技技能,人類都可以通過觀察其他人來學習。隨着YouTube等來源的公開視頻數據的激增,現在比以往任何時候都更容易找到我們感興趣的任何技能的視頻剪輯。每分鐘都會有300小時視頻上傳到YouTube。不幸的是,我們的機器從大量的視覺數據中學習技能仍然非常具有挑戰性。大多數模仿學習方法都需要簡潔的表徵,例如從動作捕捉(mocap)記錄的表徵。但獲取mocap數據可能非常麻煩,通常需要大量的儀器。Mocap系統也往往侷限於室內環境,閉塞程度最小,這可以限制可記錄的技能類型。如果我們的智能體也可以通過觀看視頻片段來學習技能,那就相當好了。

在這項工作中,我們提出了一個從視頻(SFV)學習技能的框架。通過結合計算機視覺和強化學習方面的最先進技術,我們的系統使模擬角色能夠從視頻剪輯中學習各種各樣的技能。給定演員執行某些技能的單個單眼視頻,例如側翻或後空翻,我們的角色能夠學習在物理模擬中再現該技能的策略,而無需任何手動姿勢標註。

從視頻學習全身動作技能的問題在計算機圖形學中受到了一些關注。以前的技術通常依賴於手工製作的控制結構,這些控制結構對可以產生的行爲施加了強大的限制。因此,這些方法往往受限於可以學習的技能類型,並且所產生的動作看起來相當不自然。最近,深度學習技術已經證明了在諸如Atari等領域的視覺模仿以及相當簡單的機器人任務方面有希望的結果。但是這些任務通常只在演示和代理的環境之間進行適度的域轉換,並且持續控制的結果主要是在動態相對簡單的任務上。

框架

我們的框架結構作爲管道,由三個階段組成:姿勢估計,動作重建和動作模仿。輸入視頻首先由姿勢估計階段處理,姿勢估計階段預測每幀中演員的姿勢。接下來,動作重建階段將姿勢預測合併到參考動作中並修復可能由姿勢預測引入的僞像。最後,參考動作被傳遞到動作模擬階段,其中訓練模擬角色以使用強化學習來模仿動作。

該管道包括三個階段:姿勢估計,動作重建和動作模仿。它接收作爲輸入的執行特定技能的演員和模擬角色模型的視頻剪輯,並學習使角色能夠在物理模擬中再現技能的控制策略。

姿勢估計

給定視頻剪輯,我們使用基於視覺的姿勢估計器來預測每個幀中演員的姿勢。姿勢估計器建立在人體網格恢復的工作之上,該網格恢復使用弱監督的對抗方法來訓練姿勢估計器以預測來自單眼圖像的姿勢。雖然需要姿勢註釋來訓練姿勢估計器,但是一旦經過訓練,姿勢估計器可以應用於新圖像而無需任何標註。

基於視覺的姿勢估計器用於預測每個視頻幀中的演員的姿勢。

動作重建

由於姿勢估計器針對每個視頻幀獨立地預測演員的姿勢,因此幀之間的預測可能不一致,從而導致抖動僞像。此外,雖然近年來基於視覺的姿勢估計器已經大大改善,但它們仍然偶爾會犯一些相當大的錯誤,這可能導致偶爾會出現奇怪的姿勢。這些文物可以產生物理上不可能模仿的動作。因此,動作重建階段的作用是減輕這些僞影,以便產生更加物理上合理的參考動作,這將使模擬人物更容易模仿。爲此,我們優化新的參考動作

,以滿足以下目標:

其中

鼓勵參考動作類似於原始姿勢預測,並且使相鄰幀中的姿勢相似,以便產生更平滑的動作。

該過程可以顯着改善參考動作的質量,並且可以從原始姿勢預測中修復許多僞像。動作重建前後參考動作的比較。動作重建可減輕許多僞影併產生更平滑的參考動作。

動作模仿

一旦我們有參考動作

,我們就可以繼續訓練模擬角色來模仿技能。動作模擬階段使用與我們之前提出的用於模仿mocap數據的方法類似的RL方法。獎勵函數簡單地鼓勵策略最小化模擬角色的姿勢與每幀處重建的參考動作的姿勢之間的差異:

同樣,這種簡單的方法最終工作得非常好,我們的角色能夠學習各種具有挑戰性的雜技技巧,其中每項技能都是通過單個視頻演示學習的。

模擬人形機器人學習通過模仿視頻剪輯來執行各種技能。

結果

總的來說,我們的角色能夠從YouTube收集的各種視頻剪輯中學習20多種不同的技能。

我們的框架可以通過視頻演示學習大量的技能。

儘管我們角色的形態通常與視頻中的演員完全不同,但政策仍然能夠密切複製許多技能。作爲更極端的形態差異的一個例子,我們還可以訓練模擬的Atlas機器人來模仿人類的視頻剪輯。

擁有模擬角色的一個優點是我們可以利用模擬將行爲推廣到新環境。在這裏,我們模擬了人物學會使動作適應不規則地形,原始視頻剪輯是從平地上的演員錄製的。

動作可以適應不規則的環境。

儘管環境與原始視頻中的環境完全不同,但學習算法仍然爲處理這些新環境制定了相當合理的策略。

總而言之,我們的框架實際上只是採取瞭解決視頻模仿問題時任何人都能想到的最明顯的方法。關鍵在於將問題分解爲更易於管理的組件,爲這些組件選擇正確的方法,並將它們有效地集成在一起。然而,模仿視頻技能仍然是一個極具挑戰性的問題,而且有很多視頻剪輯我們還無法重現:

靈活的舞步,如這個Gangnam Style的剪輯,仍然很難模仿。

但令人鼓舞的是,僅僅通過整合現有技術,我們就可以在這個具有挑戰性的問題上取得相當大的進展。我們希望這項工作能夠激發未來的技術,使智能體能夠利用大量公開的視頻數據來獲得真正驚人的技能。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章