沒有百萬調音師，用大數據+AI 也能讓用戶的聲音更動聽

在歌唱場景、語聊等場景中，用戶已經不在滿足於被聽見、被聽清、能互動，以及擁有高清的音質體驗。他們有了更進一步的需求，希望不僅能有最佳的音質，還想要讓自己的聲音變得更動聽、更有磁性。

就像我們看高清視頻、高清照時，第一感受是震撼，所有細節都能看清了，但皮膚的紋理、瑕疵也會暴露出來。所以會增加紅潤、磨皮、美顏等，讓自己更好看。同樣道理，高音質場景下，會使用高採樣率（44.1kHz - 48kHz）的軟件驅動採集，然後使用音頻損傷較小的前處理算法（降噪、回聲消除、自動增益等）對信號進行處理，並使用保真性能較好的 Codec 進行編碼，使得遠端接收到的音頻達到高保真效果。這樣一來聲音細節會更豐富，也更接近真實的聽感。但是，聲音中的瑕疵也變得更加明顯，所以我們需要爲聲音“加了一層裸妝”，讓聲音更動聽、完美，又不失本色。這就是RTC 場景下的實時美聲功能。

目前，行業內也能找到一些所謂的“美聲”功能，但從技術層面看，它們真的是美聲麼？

美聲≠音效

其實，有些方案將“美聲”與“音效”混爲了一談。兩者實現的效果和實現方式，不盡相同。

音效指的是通過調節EQ、混響，以及添加效果器等，給人聲增加某種特定風格的效果，比如我們在合唱場景中看到的KTV、演唱會、錄音棚、流行、R&B、留聲機等效果。如果處理之後的聲音，有空間感，或者不像你的聲音了，那基本上就是經過了音效處理。

美聲則不僅僅是簡單地調節 EQ 和混響，而是把聲學、語言學、心理學結合起來調節人聲的音調、音色、動態、韻律、空間效果等，實現對人聲的整體美化。它是在不改變人聲的基礎上，對人聲進行調節。就像是對人像增加磨皮、紅潤效果，你並不會去改臉型、大眼。如果改變臉型，在音頻中，就相當於變聲了。所以經過美聲之後，還能聽出是你的聲音，只是變得更好聽了，比如更有磁性和活力。

如果我們將美聲與音效，看作是圖片處理中的美顏與風格化，看起來會是這樣的：

怎樣讓聲音更動聽？

想要達到這種效果，通常有三種做法：

1.憑藉人的訓練。知乎上有這樣一條問題“怎麼練就一副有磁性的聲音”，最高贊回答是：按照一定的方法，訓練胸腔共鳴，就可以讓聲音更動聽或更有磁性。

2.主要依靠硬件實現。可以通過專業聲卡，來實現很好的體驗，但是專業聲卡，便宜的需要幾千元，貴的要上萬元。如果選錯了聲卡，不僅得不到想要的“美聲”效果，還會出現延時，影響實時互動的體驗。

3.通過軟件的方式實現。對音調、音色、動態、韻律、空間效果等進行調節，達到人聲的美化。這種方法不僅用戶接入門檻低、成本低，並且能保證實時互動的體驗。

顯而易見，與其像做一個專業錄音棚一樣，通過硬件的方式實現一個“聲臨其境”的線上實時互動場景，或是努力地尋找胸腔共鳴的方法，都不如通過軟件的方式更加快捷、低成本。

事實上，我們聲網在支持了包括在線實時合唱、語音聊天室、互動直播、在線音樂教學等多種高音質實時互動場景的同時，也在研究如何用軟件的方法，對用戶的聲音進行實時美聲，並已經實現了完整的實時美聲方案，也是目前業界第一家提供實時美聲方案的平臺。我們接下來講講如何定義實時美聲，以及實現實時美聲的原理。

對一般人而言什麼是好聲音？

要用軟件的方法實現實時的美聲，我們就需要先了解，到底什麼纔是“好聲音”？從科學角度，是怎麼定義的呢？

對於一般人來講，“好聲音”是一種“難以言喻的感覺”。有的聲音很陽光，有的聲音溫柔甜美，你就是覺得它們聲音好聽。

其實，我們會認爲一個聲音好聽，主要受到聲學、語言學、心理學三方面的影響。所以我們可以從語音聲波產生的聲學原理、空間聲波傳輸的空間混響模型、與心理感知和情緒相關的心理學感知模型、韻律、人羣差異的語言學等多個角度出發，對什麼是好聲音、好聲音的數學描述特徵指標進行多維分析，總結出不同種類好聲音的一般規律。

例如，有些人會喜歡富有磁性的男性的聲音，以及溫柔的女性聲音，那這兩種聲音特徵指標就可以這樣描述：

男性磁性的聲音一般在低頻和高頻能量較高、中頻能量較低；
女性溫柔的聲音往往會顯得節奏緩慢、pitch變化小、咬字模糊等特性。

以此類推，我們可以用特徵指標，來描述更多類型的“好聲音”，把這些“難以言喻的感覺”數據化。

如何把“好聲音”數據化？

答案是：大數據與 AI 算法。

事實上，我們也是基於大數據分析出“男性磁性聲音”和“女性溫柔的聲音”有哪些特徵的。

首先，我們已經知道了辨別“好聲音”的理論基礎：三個維度的多個因素讓我們產生了“這個聲音好聽”的感覺。那麼我們可以基於不同場景，如語聊、歌唱等，從性別、年齡、音色的維度確定一些“好聲音”目標。

確定目標之後，就像做語音識別需要語料庫，做圖像識別需要圖片庫一樣。我們接下來要通過線上、線下的方式收集並建立一個“好聲音”數據樣本庫。

最後對樣本庫中語料進行多維分類，並通過數據挖掘將人們的喜好轉化爲數據與音效設計的目標，用這些數據來驅動音效算法設計。

針對場景與性別設計算法

在設計美聲相關算法的時候，我們還需要考慮應用場景。我們將場景主要分爲兩種：一種是語聊場景，比如聊天房、在線教學等。另一種歌唱場景，比如互動直播、線上 K 歌。

在歌唱場景中，絕大部分情況都會帶有伴奏、背景音樂，背景音可以起到部分掩蓋人聲瑕疵的作用。而在語聊場景下，基本上是純人聲，沒有音樂，所以人聲的瑕疵不會受到音樂遮掩。我們需要對兩種場景的算法設計，以及背景音的融合等方面，做差異化處理。

除了場景，還要考慮另一個維度，那就是性別。男聲和女聲的主要區別是音調的高低不同。男性聲帶較長、較寬、較厚，所以振動時頻率低，發出的音調也低，女性聲帶較短、較薄、較窄，所以振動時頻率高，發出的音調也高。生理條件的先天差別，決定了男女聲的發聲比例的不同。從審美角度來講，一般沒有人希望男聲溫婉如玉，女聲聲如洪鐘，所以生理和先入爲主的審美決定了男女美聲調校方向需要進行差異化處理。

語聊場景下，人聲瑕疵無遮掩，因此一般單純的語聊美聲處理不用考慮背景融合度、添加混響等問題，着重追求人聲的可懂度和耐聽度。

在歌唱場景中，絕大部分情況都會帶有伴奏、背景音樂，背景音可以起到部分掩蓋人聲瑕疵的作用，而語聊場景基本上是純人聲，瑕疵無遮掩，這樣會對算法處理和背景融合等方面提出差異化的需求。

美聲要效果，也要實時

接下來就要是實現美聲的效果了。爲了實現美聲效果，往往需要對聲音的多個維度進行修改，聲網Agora是採用鏈路式多模組聯合算法框架，對人聲的音調、音色、韻律、節奏、空間、氛圍甚至藝術類型等不同維度進行調整。

與我們在一些唱歌應用中使用的音效、美聲等音頻處理不同，它們都是離線完成的，不會在意用多長時間處理、耗費多少計算資源。而實時美聲都是發生在 RTC 場景下的，對算法在算力、延遲、系統資源消耗方面有較高的要求。所以在設計算法的同時，還需要針對實際數據表現，將算法產生的延時、資源消耗降到最低。

歡迎體驗聲網Agora實時美聲解決方案

聲網Agora 已經推出業界首個實時美聲方案，適用於包括語音通話、互動直播、語聊房、開黑聊天室、K歌房、線上KTV、FM 電臺、桌遊狼人殺等語聊場景，以及互動直播、K歌房、線上KTV、FM 電臺等歌唱場景。通過調用一些 API，即可實現。

爲了讓大家可以直觀感受美聲處理前後的效果，我們也在網站上提供了音頻小樣，推薦在 Web 瀏覽器打開，體驗更好：

https://www.agora.io/cn/audio-demo

如果你感興趣，希望在應用中增加美聲的功能，可以撥打客服電話諮詢（400 6326626），並獲取體驗版 SDK 與相應開發文檔。

我們在往期的 Agora Talk 中，也分享了實時美聲的實現，想了解更多技術細節，可以掃碼觀看視頻回放。

沒有百萬調音師，用大數據+AI 也能讓用戶的聲音更動聽

35K*14 薪，入職了！這公司只要不裁員，我能一直呆下去！

開發者實踐丨Agora Home AI 音視頻的未來

聲網 Agora 音頻互動 MoS 分方法：爲音頻互動體驗進行實時打分

QCon 實時音視頻專場：實時互動的最佳實踐與未來展望

開發者用作品告訴我們，RTM SDK 還可以這麼用

開發者實踐：做一個雙人視頻社交小遊戲，“甩頭”才能玩

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結