音樂驅動虛擬人——娛樂場景下虛擬人的AI驅動實踐

元宇宙時代的娛樂場景下，通過高精度的AI驅動模型還原真人的歌舞表演，有着更低成本、更多創造性、精彩度、實時互動性的綜合優勢，是虛擬數字人驅動的最終形態。LiveVideoStackCon 2022北京站邀請到騰訊音樂天琴實驗室計算機視覺負責人——董治，爲大家介紹TME天琴實驗室在音樂驅動領域的 Music XR Maker 系統，包括虛擬人舞蹈生成、歌唱表演生成、音樂燈光秀等方面的最新進展。

文/董治

編輯/LiveVideoStack

本次分享的主題是“音樂驅動虛擬人”，重點關注到娛樂場景下的虛擬人AI驅動方案。

這是天琴實驗室的虛擬人——小琴，她在QQ音樂有專門的歌手頁，會發歌、發視頻，未來在站內或站外都會發布作品。

本次分享主要包括四部分：

-01-

虛擬表演與MusicXRMaker

虛擬人業務場景可以分爲三塊技術棧：建模、驅動和渲染。

建模階段有許多品類的虛擬形象，圖中是TME旗下的四位虛擬人：2D的安可、3D的扇寶、部分寫實的小琴和超寫實的Lucy。

創造虛擬人成本開銷大部分在於建模，目前有許多技術手段能夠降低建模成本，主要是2D或3D的拍照捏臉技術，拍攝圖片後建立相似的虛擬形象。

MetaHuman能夠快速建立超寫實的虛擬人頭像，並且已經在遊戲、虛擬人的場景中有着廣泛的應用。如果要建立完善的、商業化的、虛擬偶像級別的虛擬人，則更偏向於用相機的陣列環境，拍照採集更多信息，或是直接人工通過美術操作建模，但這成本相對更高。

建模環節使用較多的工具是MAYA，以上四種工具渲染的模型中，MAYA的渲染效果最寫實漂亮。

如果要做CG，會將模型轉到C4D，從MAYA轉到C4D是可控的操作，但用C4D做CG會造成到更多的人力成本。

此外，還可以通過實時的渲染引擎來驅動，包括UNREAL和unity兩個途徑，存在的gap是並不能直接通過工具將MAYA轉爲UNREAL或是unity，如果要做到好的效果，需要涉及到非常多的細節重現。

轉換後在實時渲染引擎的展現效果可以達到MAYA的90%左右，但無法完全超越MAYA。

渲染後如何呈現？最簡單的方法是在UNREAL或unity中渲染爲離線視頻進行播放，實時播放常用的途徑是雲直播，在後端PC開一臺PC機，將虛擬引擎渲染的畫面傳到CDN的直播流，觀衆端可以像看普通直播一樣觀看虛擬人的表演。若要進行互動如輸入文字、送禮，可以傳到後臺PC的渲染端，在渲染畫面中得到對應的反饋。更高級的做法是通過雲渲染，雲遊戲方式，雲直播方式下所有人看到的畫面是一致的，雲渲染或雲遊戲方式下，每個人可以操控自己的視覺，畫面具有可控性。目前雲遊戲方案存在的問題是成本較高，不可能在廣泛的場景中推動。

除了建模和渲染，虛擬人業務最核心的是如何驅動虛擬人,主要分爲兩條線路，第一條是通過中之人表演，利用實時驅動技術驅動虛擬人，其痛點在於必須依賴中之人的表演。

第二條是AI驅動，業內大家較熟悉的是客服AI數字人、數字播報，但娛樂類和工具類的虛擬人不同，細分下去，我們屬於AI驅動中的音樂驅動，驅動根源是歌曲，讓虛擬人唱歌、舞蹈。會涉及到歌聲口型、舞蹈動作、樂器手勢、歌唱表情等。

實現娛樂場景下的虛擬人，不僅需要考慮到“動起來”，還需要綜合考慮表演、舞美、運鏡，編導和燈光。

綜合以上便是Music XR Maker研發體系，圖中是虛擬元素創建的具體工作，通過各種途徑拿到數據源，基於對音樂的理解，風格旋律情緒能量節奏段落等，實現AI生成。大體分爲兩類：

1、端到端模型，包括分類預測、關鍵點預測和生成類模型；

2、AI編排生成，包括召回、排序和重排。最終通過3D渲染手段應用在產品端，主要是互動場景，包括音樂世界、雲蹦迪直播、KK秀和TMELand，及專門的虛擬人，包括扇寶、安可、小天、小琴等，在虛擬人方面還可以延伸出虛擬偶像視頻、虛擬直播和虛擬演唱會。

-02-

音樂生成虛擬人舞蹈表演

虛擬人物到舞蹈生成以分爲三種方式：動捕棚，視頻復刻和基於音樂生成。

1、動捕棚。圖中是騰訊搭建的較專業的動捕棚，包括多目動捕、慣性動捕。其效果最佳，但價格昂貴，人力、設備成本高，主要用於精品視頻輸出。

2、視頻復刻。識別視頻人物的骨骼動作，現有階段，單目動捕能容納的信息有限，易造成效果上的細節缺失，但其人力成本低，適合低精度場景及抓熱點場景。

3、基於音樂生成，也是純算法生成。效果依賴於數據和算法的性能，困難在於數據獲取。適用於批量生產場景，如爲幾千萬或上億曲庫中的每首歌適配較好的舞蹈，類似於AIGC途徑。

生成商用舞蹈主要考慮以下幾點：首先，生成的舞蹈至少是好看的，在此前提下，還需與音樂的節奏、韻律、和絃及風格保持一致。其次，許多新出的歌曲，其舞蹈動作和歌詞相關聯。

我們綜合動捕手段和開源數據集生成了天琴舞蹈數據集，包含20小時、不同情緒下的舞蹈數據，其中不乏K-POP、J-POP等舞種。

天琴方案主要是將一段音樂數據進行切片，對應的舞蹈數據按一個八拍作爲一段完整動作，選取一個八拍是因爲一個八拍接一個八拍的舞蹈動作相對流暢，若切分一個八拍，其流暢度會下降。

得到音頻數據後，分析其音樂特徵，包括Melody、Mel spectrogram、Rhythm，最後通過Encoder和Decoder網絡找到匹配的舞蹈片段。

以上涉及到幾點：首先是召回的動作，一小段一個八拍的音頻可以在動作庫中挑選到合適的動作集，一段音樂挑十個動作集，如何串聯每段音樂挑選的動作集，形成連貫動作？需要考慮音樂的beat，計算前後動作的轉移概率，也就是一個動作完成後接另一個動作的概率、前後兩個動作的朝向和速度，如果前一個動作過快，而後一個過慢，間隔時間較長，那麼整體看起來會不協調。最後綜合歌詞文本信息，形成串聯方案，完成整首歌曲的舞蹈編排。

此外，專業意見包括：相同的和絃重複舞蹈動作序列、每4個八拍的舞蹈最好不要重複、設計start pose和ending pose，這些會在舞蹈片段中特別標記。

我們同時測試了一套純生成，沒有用到編排的方案，其效果較差。原因大致是數據集偏少。舞蹈項目的數據收集成本很高，因爲要用到動捕棚，還需要專業人員反覆表演，才能達到較好的效果。我們也嘗試輸入音頻舞蹈動作，通過Encoder和Decoder網絡直接輸出舞蹈動作，在網絡裏儘量拉齊模態向量。

這是舞蹈生成效果展示。

BGM是合成的，涉及到音頻的歌聲合成技術，採用的是蒐集到的小琴的專有音色。

舞蹈生成主觀評測打分包括兩種方式：

1、生成結果vs手K結果；2、用戶分別爲生成結果和手K結果打分。

最終結論是生成的總體質量均分已經接近手K。

總結一下以上手段的應用。

動捕棚拍攝和CP手K的成本相當高，生成的高質量舞蹈數據用於精品MV和形象宣傳片，數據會收入AI舞蹈數據庫中。

單目視頻復刻適用於爆款舞蹈，對生成的動作進行分類後，中質量舞蹈數據會收入AI舞蹈數據庫，低質量的數據直接丟棄。

AI舞蹈生成用於量產動作及用戶Avatar。虛擬偶像較多用於直播場景，比如用戶點一首歌，在想跳某首歌的舞蹈時，無論是哪首歌都能跳起來。另一個用處是，虛擬主播表演時，在前一階段只需聊天，無需歌唱、舞蹈才藝，需要的時候可以直接用生成方式。即使用中之人，對其要求也只是能夠聊天溝通，在舞蹈技能方面的要求大幅度降低。

-03-

歌聲驅動虛擬人歌唱表演

虛擬人歌唱涉及到口型和表情，超寫實虛擬人配備了專業的設備及面捕方案。普通虛擬人則能夠直接使用普通手機攝像頭，實時驅動52BS的面部表情，包括Unity 兼容的 ARKit、Unreal的Livelink。

這裏展示的是虛擬人歌唱和說話驅動的差別，主要區別在於口型。說話時，口型改變頻率加快，而歌唱時，一句歌詞的口型變化是連貫的動作。

歌唱口型的建模經歷了三次迭代。1.0版本通過歌聲響度即可實現，2.0版本通過卷積神經網絡，在輸入音頻後能夠直接預測面部的BS信息，3.0版本考慮到前後數據信息，採用Transformer架構。數據方面，受益於K歌較好的帶畫面的歌詞數據，客戶生成UGC帶畫面的歌唱作品時，通過視頻面捕識別出唱歌時的口型BS數據和唱歌時的幹聲，再將口型BS數據和幹聲數據輸入到歌聲口型驅動模型，形成歌唱口型方案數據。

在基於Transformer的模型中，輸入用戶演唱歌曲的歌詞及音頻信息，提取兩者特徵並進行特徵融合後輸入框架，經過幾輪的迭代後，最終輸出虛擬人的Blendshape權重。

上文介紹的是異步方案，實時性解決方案則是通過原唱和優秀的幹聲，根據歌詞文件生成標準的口型驅動模型，作爲預測BlendShape，再通過用戶的實時幹聲得到當前情況，融合兩者形成BlendShape。

計算量最大部分放在了異步處理。

另一套方案不涉及模型，即音素轉視素，在TTS實時產生音素信息，根據得到的相應視素調整口型。

這是K歌8.0版本以上的“KK秀”功能，用戶在唱歌時既有歌詞在跑，也有KK秀的小人表演。

左側是錄唱場景，右側是歌房場景。

最終的生成效果不僅包括歌唱口型。在觀察了許多真實歌唱表演後，我們認爲一場好的演出除了口型需要和歌曲匹配之外，還需要綜合生動的表情、手勢、身形。

在實際應用中，真實的歌唱模型包括口型模型及對應的表情、動作和手勢輸出。

具體方案首先收集帶表情演唱視頻，類似口型做法，通過面捕拿到表情數據，動捕拿到動作數據，手捕拿到手勢數據，再將三者結合作爲歌唱表情段，輸入歌唱表情庫。

右側是使用小琴模型輸出的各種眼神效果。

在歌唱表演生成系統中，前面是仿真口型生成，後面是表情和動作生成。

同樣是解析音頻，提取歌曲類型和高潮時間點、歌曲情感，在特定類型的片段和位置插入對應表情庫中的表情，如陶醉、閉眼、挑眉等及歌唱動作。

此外，還要對插入的片段進行平滑處理。

以上表情歌唱的表演會應用在天琴虛擬人的表演和演講方案中。

這是TME財報小型表現的片段：

這是小琴在《你好，大學聲》中做的自我介紹：

-04-

虛擬舞臺呈現

完整的虛擬舞臺的呈現，除了包括虛擬人的人物表情、口型動作之外，還需要兩方面：

燈光舞美和運鏡編導，相對於舞臺動作的數據，這二者更小衆專業。

目前的方案通過專業的燈光老師及攝影老師自己的專業經驗和傳統手段，並沒有涉及到太多自動化動作，於是我們思考通過算法實現這部分工作，從而降低表演成本。

圖中是音樂燈光秀流程：

首先爲場景設計燈光，包括類型、數量等，佈置完之後，每個燈要有相應的動作，亮或不亮、轉動方向、顏色，燈光屬性等，這是一個燈的動作，那麼將所有燈的軌跡動作連貫起來，就形成了一套燈光展現的方案。

輸入音樂信號，在預設燈光庫中找到一個個的Action，最後通過時間序列拼接所有Action。

燈光秀的數據收集非常麻煩，樣本歌曲可以通過專業的燈光師操作專業的燈光軟件實現，但實現效果無法直接應用到Unity/UE，需要用到TA的同學在Unity/UE復現。復現的同時，提取關鍵信息包括燈光位置、動作、和音樂的關聯信息等，此外，還要輸入音樂燈光秀算法。最終，輸入的目標歌曲經過算法得到TimeCode，並在Unity/UE中渲染。