Meta 正式發佈語音生成 AI 模型：Voicebox

原創

Linux就該這麼學

2023-07-06 14:01

Meta 宣佈了一項在語音生成領域的突破性成果：Voicebox。這是一個在各方面都表現非常先進的語音生成 AI 模型，它能夠通過上下文學習執行語音生成任務，如編輯、採樣和風格轉換等，而無需專門訓練。

與其他生成語音的 AI 需要使用精心準備的訓練數據對每項任務進行特定訓練不同。Voicebox 使用一種新方法來僅從原始音頻和隨附的轉錄中學習。這種方法提高了模型的靈活性，能夠更好地適應各種任務。

Voicebox 採用非自迴歸的流匹配模型，它被訓練用於填充語音，給定音頻上下文和文本，並在超過 50000 小時的未經過濾或增強的語音上進行訓練。類似於 GPT，Voicebox 可以通過上下文學習執行許多不同的任務，但它更靈活，因爲它還可以根據未來的上下文進行條件化。

Voicebox 模型具有多種用途。它可以用於單語言或跨語言的零樣本文本到語音合成、噪聲去除、內容編輯、風格轉換和多樣性樣本生成。特別地，Voicebox 在可理解性（5.9% 對 1.9% 的單詞錯誤率）和音頻相似度（0.580 對 0.681）方面優於當前最先進的英語模型 VALL-E，同時速度比它快 20 倍。

對於跨語言風格遷移，Voicebox 優於 YourTTS，將平均單詞錯誤率從 10.9% 降低到 5.2%，並將音頻相似度從 0.335 提高到 0.481。

目前可以在 voicebox.metademolab.com 查看模型演示。

由於潛在的濫用風險，目前並未公開提供 Voicebox 模型或代碼。儘管如此，他們仍然分享了音頻樣本和一篇研究論文，詳細介紹了他們的方法和所取得的結果。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

打開神經網絡的黑箱子

卷積神經網絡每個卷積核提取不同的特徵。每個卷積覈對輸入進行卷積，生成一個feature map，這個feature map即體現了該卷積核從輸入中提取的特徵，不同的feature map顯示了圖像中不同的特徵。淺層卷積核提取：邊緣、顏

2024-05-06 00:41:39

深圳IO 第8關-仿真蜂鳴器

代碼塊： tcp x0 -1 + not tcp acc 50 + gen p1 1 1 - slp 1

2024-05-05 23:28:42

深圳IO 第9關-無線遊戲控制器

tcp x0 -999 + mov p1 x1 + mov p0 x1 + tcp x3 9 - mov x3 x1 + mov x3 acc + sub 8 + mov acc x1 slp 1 + tcp x3 9

2024-05-05 23:28:41

動詞算子式通用代碼生成器的根本原理，動詞算子和域對象的笛卡爾積

如果您使用過動詞算子式通用代碼生成器，比如光，和平之翼，時空之門，仙童或者蓮花。一定對這一類代碼生成器的適應性，彈性和靈活性有深刻的體會。並好奇這一切是如何達到的。其實，這一切的特性都源於動詞算子式代碼生成器的根本原理：動詞算子和域對象的

2024-05-05 22:58:28

通用代碼生成器簡介

通用代碼生成器簡介通用代碼生成器或稱動詞算子式通用代碼生成器，是一系列各種語言的易用的整站式代碼生成器。其根本原理是把方法分解成動詞算子和域對象的笛卡兒積。根據動詞算子式代碼生成器的基本原理。所有方法，都是動詞算子和域對象的結合。是一個

2024-05-05 22:58:27

日本韓國拓展海外市場：探索海外網紅達人廣告媒介公司資源

【本篇由言同數字科技有限公司原創】東南亞地區擁有龐大的互聯網用戶羣體，其中TikTok和YouTube作爲兩大主流平臺，吸引了大量的用戶和網紅。隨着直播帶貨在全球範圍內的興起，東南亞地區的網紅們也開始積極參與直播帶貨，將其作爲一種新的營銷方

2024-05-05 22:36:15

中東阿拉伯以色列迪拜海外網紅廣告營銷：達人博主合作釋放潛力

【本篇由言同數字科技有限公司原創】當針對東南亞地區的TikTok和YouTube網紅直播帶貨營銷策略進行細化時，可以從以下幾個方面展開： 1. 社交媒體平臺選擇：在東南亞地區，TikTok和YouTube是兩大主流社交媒體平臺，但在不同國

2024-05-05 22:36:10

lightdb操作出錯:ERROR: current transaction is aborted, commands ignored until end of transaction block

前言 lightdb數據庫是恆生自主研發的面向金融領域的支持集中式和分佈式的國產數據庫，實現基於PostgreSQL，因此也會遵循postgreSQL的一些事務特性。本文章主要說明的特性爲：在一個事務中，如果有一個SQL執

2024-05-05 21:55:25

lightdb 單機模式下數據庫平移

前言 lightdb數據庫使用一段時間之後，希望在其他服務器重新部署一套，但是要求數據可以平滑遷移到新的數據庫上面去，可以參考本文章進行操作步驟 1. 數據庫安裝在新的服務器安裝數據庫，具體安裝步驟可以參考：https://w

2024-05-05 21:55:24

Java中的4種線程池

Java 裏面線程池的頂級接口是 Executor，但是嚴格意義上講 Executor 並不是一個線程池，而只是一個執行線程的工具。真正的線程池接口是 ExecutorService。 newCachedThreadPool 創建一個

2024-05-05 21:31:36

深圳IO-被動紅外感應設計

代碼1： teq p1 x0 + mov 100 acc teq p1 x1 + mov 0 acc tlt p0 20 + mov 0 x2 - mov acc x2 slp 1 代碼2： mov x0 acc

2024-05-05 11:27:22

深圳IO-發光標誌

mov 100 p0 mov 0 p1 slp 1 mov 0 p0 mov 100 p1 slp 1

2024-05-05 11:27:19

深圳IO-飲酒遊戲計分器

teq p1 100 + add 1 teq p0 100 + sub 2 tlt acc 0 + mov 0 acc mov acc x1 slp 1

2024-05-05 11:27:18

深圳IO-脈衝發生器

teq p0 100 + mov 100 p1 + slp 1 + mov 0 p1 slp 1

2024-05-05 11:27:16

Java中線程的創建方式

繼承 Thread 類 Thread 類本質上是實現了 Runnable 接口的一個實例，代表一個線程的實例。啓動線程的唯一方法就是通過 Thread 類的 start()實例方法。 start()方法是一個 native 方法，它將

2024-05-04 21:31:13

24小時熱門文章

win11關閉自動檢測病毒刪文件

最新文章

最新評論文章