Meta 正式發佈語音生成 AI 模型:Voicebox

Meta 宣佈了一項在語音生成領域的突破性成果:Voicebox。這是一個在各方面都表現非常先進的語音生成 AI 模型,它能夠通過上下文學習執行語音生成任務,如編輯、採樣和風格轉換等,而無需專門訓練。

與其他生成語音的 AI 需要使用精心準備的訓練數據對每項任務進行特定訓練不同。Voicebox 使用一種新方法來僅從原始音頻和隨附的轉錄中學習。這種方法提高了模型的靈活性,能夠更好地適應各種任務。

Voicebox 採用非自迴歸的流匹配模型,它被訓練用於填充語音,給定音頻上下文和文本,並在超過 50000 小時的未經過濾或增強的語音上進行訓練。類似於 GPT,Voicebox 可以通過上下文學習執行許多不同的任務,但它更靈活,因爲它還可以根據未來的上下文進行條件化。

Voicebox 模型具有多種用途。它可以用於單語言或跨語言的零樣本文本到語音合成、噪聲去除、內容編輯、風格轉換和多樣性樣本生成。特別地,Voicebox 在可理解性(5.9% 對 1.9% 的單詞錯誤率)和音頻相似度(0.580 對 0.681)方面優於當前最先進的英語模型 VALL-E,同時速度比它快 20 倍。

對於跨語言風格遷移,Voicebox 優於 YourTTS,將平均單詞錯誤率從 10.9% 降低到 5.2%,並將音頻相似度從 0.335 提高到 0.481。
Meta 正式發佈語音生成 AI 模型:VoiceboxMeta 正式發佈語音生成 AI 模型:Voicebox

Meta 正式發佈語音生成 AI 模型:VoiceboxMeta 正式發佈語音生成 AI 模型:Voicebox

目前可以在 voicebox.metademolab.com 查看模型演示。

由於潛在的濫用風險,目前並未公開提供 Voicebox 模型或代碼。儘管如此,他們仍然分享了音頻樣本和一篇研究論文,詳細介紹了他們的方法和所取得的結果。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章