伯克利智能體觀看視頻片段學習動作技能，無需手動標註

編譯：chux

出品：ATYUN訂閱號

無論是像洗手這樣的日常動作還是驚人的雜技技能，人類都可以通過觀察其他人來學習。隨着YouTube等來源的公開視頻數據的激增，現在比以往任何時候都更容易找到我們感興趣的任何技能的視頻剪輯。每分鐘都會有300小時視頻上傳到YouTube。不幸的是，我們的機器從大量的視覺數據中學習技能仍然非常具有挑戰性。大多數模仿學習方法都需要簡潔的表徵，例如從動作捕捉（mocap）記錄的表徵。但獲取mocap數據可能非常麻煩，通常需要大量的儀器。Mocap系統也往往侷限於室內環境，閉塞程度最小，這可以限制可記錄的技能類型。如果我們的智能體也可以通過觀看視頻片段來學習技能，那就相當好了。

在這項工作中，我們提出了一個從視頻（SFV）學習技能的框架。通過結合計算機視覺和強化學習方面的最先進技術，我們的系統使模擬角色能夠從視頻剪輯中學習各種各樣的技能。給定演員執行某些技能的單個單眼視頻，例如側翻或後空翻，我們的角色能夠學習在物理模擬中再現該技能的策略，而無需任何手動姿勢標註。

從視頻學習全身動作技能的問題在計算機圖形學中受到了一些關注。以前的技術通常依賴於手工製作的控制結構，這些控制結構對可以產生的行爲施加了強大的限制。因此，這些方法往往受限於可以學習的技能類型，並且所產生的動作看起來相當不自然。最近，深度學習技術已經證明了在諸如Atari等領域的視覺模仿以及相當簡單的機器人任務方面有希望的結果。但是這些任務通常只在演示和代理的環境之間進行適度的域轉換，並且持續控制的結果主要是在動態相對簡單的任務上。

框架

我們的框架結構作爲管道，由三個階段組成：姿勢估計，動作重建和動作模仿。輸入視頻首先由姿勢估計階段處理，姿勢估計階段預測每幀中演員的姿勢。接下來，動作重建階段將姿勢預測合併到參考動作中並修復可能由姿勢預測引入的僞像。最後，參考動作被傳遞到動作模擬階段，其中訓練模擬角色以使用強化學習來模仿動作。

該管道包括三個階段：姿勢估計，動作重建和動作模仿。它接收作爲輸入的執行特定技能的演員和模擬角色模型的視頻剪輯，並學習使角色能夠在物理模擬中再現技能的控制策略。

姿勢估計

給定視頻剪輯，我們使用基於視覺的姿勢估計器來預測每個幀中演員的姿勢。姿勢估計器建立在人體網格恢復的工作之上，該網格恢復使用弱監督的對抗方法來訓練姿勢估計器以預測來自單眼圖像的姿勢。雖然需要姿勢註釋來訓練姿勢估計器，但是一旦經過訓練，姿勢估計器可以應用於新圖像而無需任何標註。

基於視覺的姿勢估計器用於預測每個視頻幀中的演員的姿勢。

動作重建

由於姿勢估計器針對每個視頻幀獨立地預測演員的姿勢，因此幀之間的預測可能不一致，從而導致抖動僞像。此外，雖然近年來基於視覺的姿勢估計器已經大大改善，但它們仍然偶爾會犯一些相當大的錯誤，這可能導致偶爾會出現奇怪的姿勢。這些文物可以產生物理上不可能模仿的動作。因此，動作重建階段的作用是減輕這些僞影，以便產生更加物理上合理的參考動作，這將使模擬人物更容易模仿。爲此，我們優化新的參考動作