Facebook研究:利用神經網絡根據音樂預測音樂家的動作

 

 

內容來源:ATYUN AI平臺

爲了使用人工智能來幫助教人們如何演奏樂器,研究調查了音樂信號和手指之間的相關性是否可以通過計算來預測。我們證明它的確可以預測,這也是首次對這樣的想法進行測試。

我們的目標是創建一個動畫,它的手像鋼琴師或小提琴手那樣,通過聽音頻來移動。我們的研究引入了一種輸入小提琴或鋼琴音樂的方法,並輸出一個進一步的骨骼預測視頻,並且我們成功地證明了可以預測自然身體動態。這項研究在CVPR會議上提出。論文網址:research.fb.com/publications/audio-to-body-dynamics/

研究挑戰

從音樂信號預測身體運動是一個非常具有挑戰性的計算問題。爲了解決這個問題,我們需要一套好的視頻訓練集,我們需要能夠準確地預測這些視頻中的身體姿勢,並且我們的算法需要能夠找到音樂和身體之間的關聯。

沒有可用於此目的的訓練數據。傳統上,從視頻序列(而不是音頻)中,對自然身體運動的最好的預測是在實驗室中創造的動作捕捉序列。爲了複製傳統的方法,需要把一個鋼琴家帶到實驗室,讓他們用手指和身體關節連接的傳感器來演奏幾個小時。這很難執行,也不容易推廣。

取而代之的是,我們利用在線播放的高度熟練的音樂家的公開視頻,這也可能會使數據更加多樣化。我們從互聯網上收集了3.6小時的小提琴和4.4小時的鋼琴獨奏音樂會,並通過檢測上半身和每個視頻的每一幀中的手指來處理視頻。

然後,我們建立了一個長短期記憶(LSTM)神經網絡,用於瞭解音頻特徵與身體骨骼標誌之間的相關性。預測點被應用到裝配好的化身上以創建動畫,最終的輸出是一個根據音頻輸入移動的化身。

 

方法概述:(a)我們的方法作爲音頻信號的輸入獲取,例如鋼琴音樂,(b)是我們LSTM送入網絡預測身體運動點,(c)然後用於動畫化身並顯示它在鋼琴上播放輸入音樂(虛擬形象和鋼琴是模型,其餘則是公寓的真實背景)。

輸出的骨骼產生有趣的身體動態。爲了最好地體驗我們的結果,請觀看視頻。

精彩視頻點擊鏈接:Facebook研究:利用神經網絡根據音樂預測音樂家的動作

潛在的應用

這項研究受到華盛頓大學創建的一個系統的啓發,該系統可以發現一個人的言語與嘴脣如何移動之間的相關性。我們假設可以從音頻信號預測身體姿勢,這顯示出很有希望的初步結果。我們相信音頻與人體之間的相關性有可能在VR,AR和識別中有各種應用。

一個潛在的應用是使用AR來教人們如何演奏樂器。人們可能會從世界上最好的鋼琴家那裏學習,因爲我們正在使用專業鋼琴家進行視頻培訓。當在AR中顯示體驗時,人們可以3D形式在化身周圍漫遊,並放大手指以查看正在做什麼動作。我們非常興奮地展示用AI能夠幫助人們通過掌握動作,來表演和創作音樂。

本文轉自ATYUN人工智能媒體平臺,原文鏈接:Facebook研究:利用神經網絡根據音樂預測音樂家的動作

更多推薦

蘋果和谷歌因隱私問題暫停部分語音數據審查業務

谷歌自動重建整個果蠅大腦,公開展示完整圖像及其交互界面

那個短命的一鍵“脫衣”軟件,我在GitHub搜到了相關技術…

標籤:

對象檢測計算機視覺

迎關注ATYUN官方公衆號

商務合作及內容投稿請聯繫郵箱:[email protected]

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章