吃了這些數據集和模型，跟 AI 學跳舞，做 TensorFlowBoys

最近，《這！就是街舞》第二季開播，又一次燃起了全民熱舞的風潮。

剛開播沒多久，這個全程高能的節目，就在豆瓣上就得到了 9.6 的高分。舞者們在比賽中精彩的表演，讓屏幕前的吃瓜羣衆直呼「太燃了！」「驚豔！」，甚至情不自禁跟着音樂抖起來了。

然而，真要自己跳起來，實際與想象之間，估計差了若干個羅志祥。想象中，自己是這樣的：

但實際上卻是這樣的：

對於舞者來說，他們的動作叫做 Hiphop，Breaking，Locking 等等，而對於吃瓜羣衆來說，就是抖來抖去，滾來滾去，指來指去……

可能這輩子和街舞無緣？還是去跳跳廣場舞吧……

等等！先別急着放棄，加州大學伯克利分校的幾位大佬，爲各位研究了一個 AI「祕密武器」，讓你瞬間舞技爆發，成爲下一代舞王。

人人都能當舞王

去年 8 月，加州大學伯克利分校的研究人員推出一篇題目爲《Everybody dance now》的論文，使用深度學習算法 GAN（Generative Adversarial Networks，生成式對抗網絡），可以複製專業表演者的動作，並將動作遷移到任何人身上，從而實現「Do as I do」（舞我所舞）。

先來看複製舞蹈的結果展示，感受一下：

左上角爲專業舞者，左下爲檢測到的姿勢，中間和右邊是複製到目標人物的生成視頻
之前 Deepfake 換臉技術大火，現在竟然整個人都可以「Deepfake」了！我們看一下這個神操作是怎麼實現的。

論文中介紹道，遷移動作方法總的分爲以下步驟：

給定兩個視頻，一個是動作源視頻，另一個是目標人物視頻；
然後使用一種算法，從源視頻中檢測專業舞者的舞姿，並創建相應運動的火柴人框架；
接着，使用訓練的兩種生成對抗網絡（GAN）的深度學習算法，創建目標人物的全部圖像，併爲其生成更清晰、更逼真的視頻圖像。

最終結果是，該系統可以把專業舞者的身體動作映射到業餘舞者的身上。除了模仿動作之外，它還能夠完美地虛構人的聲音和臉部表情。

黑科技背後原理揭祕

這項黑科技具體原理是這樣的，將動作遷移管道一共分爲三個部分：

1 姿態檢測：

團隊使用現有的姿勢檢測模型 OpenPose（CMU 開源項目），從源視頻中提取身體、面部和手部的姿勢關鍵點。這一步的本質是對身體姿勢進行編碼，忽略掉身體外形等信息。

對舞者進行姿態檢測，並編碼爲火柴人圖形

2 全局姿態標準化：

計算給定幀內源和目標人物身體形狀、位置之間的差異，將源姿態圖形轉換到符合目標人物身體形狀和位置的姿態圖形。

3 從標準化後的姿態圖形，推斷目標人物的圖像：

使用一個生成式對抗網絡模型，訓練模型學習從標準化後的姿態圖形映射到目標人物圖像。

訓練過程（上）與遷移過程（下）示意圖

在開發系統過程中，團隊使用了 NVIDIA TITAN Xp 中的 GeForce GTX 1080 Ti GPU，和由 PyTorch 加速的 cuDNN 來訓練和推理。

在圖像轉換階段，採用了 NVIDIA 開發的對抗訓練的圖像翻譯 pix2pixHD 架構。通過 pix2pixHD 的全局生成器來預測面部殘差。他們對面部使用單個 70×70 PatchGAN 判別器。

訓練過程中，源視頻和目標視頻數據的收集方式略有不同。爲確保目標視頻質量，使用手機相機，以每秒 120 幀的速度拍攝目標主體的實時鏡頭，每個視頻時長至少 20 分鐘。

對於源視頻，只需要得到合適的姿勢檢測結果，所以用網上表演舞蹈的高質量視頻即可。

系統映射結果展示

對於系統的結果，研究人員表示還不完美。儘管它產生的視頻大多還是非常逼真的，但是偶爾也會露出馬腳，比如出現身體某部位消失，就像「融化」了之類的異常現象。

此外，由於算法不對衣服編碼，無法產生衣服隨動作飄舞的視頻，目標者必須穿緊身衣服才行。

如果暫且不計較這些缺點的話，這個技術的確令人興奮。

有了這個 AI 工具，即使你是個舞蹈方面的小白，或者四肢僵硬不協調，也能像郭富城，羅志祥，或者任何你喜歡的舞者那樣成爲「舞林高手」。即使是傑克遜的太空步，對你來說也都只是小菜一碟了。

不過，擁有一個舞蹈夢的，不止伯克利分校這一個團隊。谷歌在 AI 和跳舞的結合上也花了心思。

谷歌 AI 編出舞蹈新花樣

去年年底，谷歌藝術與文化部技術項目經理 Damien Henry 與英國編舞家 Wayne McGregor 合作，共同研發了一種能夠自動生成特定風格的舞蹈編排工具。

擁有普利茅斯大學名譽科學博士學位的 McGregor ，對科學和技術素來感興趣。當他回顧自己 25 年來的舞蹈視頻時，想到能否通過技術來使表演保持新鮮感。於是他去向 Henry 請教，如何藉助技術不斷創作出新的舞蹈內容？

而 Henry 從一個科學網站的帖子獲得了靈感。這個帖子介紹了使用神經網絡，能夠用根據前一個字母中的筆跡預測下一個字母。

於是，他提出了一種類似算法，能夠對給定運動進行預測。通過視頻捕獲舞者姿勢，然後生成接下來最有可能進行的舞蹈動作，並在屏幕上實時顯示。

AI 編舞過程展示

這個算法也同樣忽略了人的衣着，只是捕捉演員特定姿勢的關鍵點，從而得出火柴人模型。

當他們錄入 McGregor 和他的舞蹈演員的舞蹈視頻後，AI 學會了如何跳舞，而且生成的舞蹈風格和 McGregor 的很相似。

雖然在舞蹈創造力上，人工智能還是有一定的侷限性。這款谷歌 AI 工具並不能發明出它從未「見過」的動作。它只是預測在它學過的動作中，最有可能發生的動作。

此外，這個技術還可以提供混合風格的舞蹈編排，比如在 McGregor 的錄像中插入巴西桑巴舞的錄像，AI 可能會給出一個全新的混合舞。Henry 並不擔心它會給出一個四不像的舞蹈，因爲學習的源頭還是由人去輸入的。

AI 姿態追蹤，不止「舞蹈夢」

看了這麼多幫你「跳舞」的技術，是不是已經躍躍欲試了呢？

舞蹈 AI 能讓不敢動不想動的人，更自在更輕鬆地動起來，體驗舞蹈和運動的樂趣。但這背後的技術可不僅僅只是博人一樂。

支撐起舞蹈 AI 的姿態估計，背後潛藏着巨大的能量，它能夠幫助我們更準確地完成形體動作，比如 3D 健身學習、體育項目姿勢矯正，病人康復訓練，甚至是虛擬試衣，拍照姿勢矯正上，都會帶來新的突破。

姿態估計的用途廣泛

按照這樣的發展，機器會越來越瞭解我們，越來越熟悉我們的體態特徵和行爲方式，從而幫我們更好地認識自己。

好了，先不說了，我要去跟 AI 學跳舞了。你要不要一起來？

吃了這些數據集和模型，跟 AI 學跳舞，做 TensorFlowBoys

人人都能當舞王

黑科技背後原理揭祕

谷歌 AI 編出舞蹈新花樣

AI 姿態追蹤，不止「舞蹈夢」

GitLab 開啓地域封鎖之時，GitHub 在中國暢談無國界

拒絕美式政治正確，他負氣出走，選擇來中國

Facebook 送你個穿搭師，建議十一出行前查收

LV 旗下公司的識別算法： 4 秒鑑定假包，準確率達 99.1%

4K高清彩色開國典禮上映：技術加持之下，歷史不會褪色

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結