學界 | 谷歌開發全新監督學習模型區分講話者聲音,準確率達92.4%

AI 科技評論消息,將含有多人語音的音頻流分割爲與每個人相關聯的同類片段的過程,是語音識別系統的重要部分。通過解決“誰在講話”的問題,區分講話者的能力可以應用於許多重要場景,例如理解醫療對話和視頻字幕等。

這個過程對人類來說相當容易,但對於計算機而言則完全不同,它需要先進的機器學習算法來訓練它們以便挑選出每個人的聲音,使用監督學習方法訓練這些系統非常具有挑戰性。

谷歌的人工智能研究科學家Chong Wang在一篇博客文章中說,他們最近開發出了一種名爲“全監督講話者區分”的新模型,該模型試圖以更有效的方式使用受監督的講話者標籤。這裏的“全”意味着講話者區分系統中的所有模塊,包括統計講話者數量,都以受監督的方式進行訓練,以便它們可以從增加可用的標記數據量中受益。

與標準監督區分任務不同,強大的區分模型需要能夠將新個體與不參與訓練的不同語音段相關聯,這極大的限制了在線和離線區分系統的質量,且在線系統通常會受到更多影響,因爲它們需要實時的分揀結果。

在NIST SRE 2000 CALLHOME基準測試中,該系統的DER(Diarization Error Rate,區分錯誤率)低至7.6%,優於之前基於聚類的方法的8.8%,以及基於DNN嵌入方法的9.9%。此外該系統基於在線解碼,特別適用於實時應用。爲了加速沿此方向的更多研究,谷歌選擇了開源核心算法。

聚類與交錯態RNN

現代講話者區分系統通常基於聚類算法,如k均值或譜聚類。這些聚類方法是無監督的,無法充分利用數據中可用的監督講話者標籤。而在線聚類算法通常在具有流式音頻輸入的實時應用中區分質量較差。

(雷鋒網注1:k均值聚類是一種矢量量化方法,最初來自信號處理,是數據挖掘中聚類分析的常用方法。 k均值聚類的目的是將n個觀測值劃分爲k個聚類,其中每個觀測值屬於具有最近均值的聚類,作爲聚類的原型。)

(雷鋒網注2:譜聚類技術利用數據相似矩陣的譜(特徵值)進行降維,然後在更小的維數下聚類,提供相似性矩陣作爲輸入,並且包括對數據集中每對點的相對相似性的定量評估。)

谷歌的新模型和常見聚類算法的關鍵區別在於,所有講話者的嵌入都是通過參數共享RNN建模的,並且使用了不同的RNN狀態在時域內交錯區分不同的講話者。

爲了瞭解其工作原理,谷歌製作了以下示例,其中有藍、黃、粉、綠四種可能的講話者,每個講話者以其自己的RNN實例(在所有講話者之間共享的公共初始狀態)開始,並且在給定來自該講話者的新嵌入的情況下保持更新RNN狀態。

在示例中,藍色講話者不斷更新其RNN狀態,直到另一個講話者黃色進入。如果藍色稍後再說,它將恢復更新其RNN狀態。(這只是下圖中語音段y7的可能性之一,如果新的講話者綠色進入,它將以新的RNN實例開始。)

將講話者表示爲RNN狀態使模型能夠學習使用RNN參數在不同講話者和話語之間共享的高級知識,這保證了更多標記數據的可用性。相比之下,常見的聚類算法幾乎總是獨立處理每個單獨的話語,難以從大量標記數據中受益。

所有這一切的結果是,可以通過給定時間標記的講話者標籤(即知道誰在什麼時候講話),用標準的隨機梯度下降算法訓練模型,訓練好的模型可以對沒有聽過的講話者的新話語進行區分。此外,使用在線解碼使其更適合對延遲敏感的應用程序。

(雷鋒網注3:隨機梯度下降算法也稱爲增量梯度下降算法,是用於優化可微分目標函數的迭代方法,是梯度下降優化的一種隨機近似。被稱爲隨機是因爲樣本是隨機選擇(或混洗)而不是作爲單個組(如標準梯度下降)或按訓練集中出現的順序選擇的。)

未來的工作

Constellation Research的分析師Holger Mueller表示,人類的說話速度比打字速度快,語音是一種更爲自然的輸入法。

“在嘈雜的環境中進行語音識別很難,特別是在多人說話時。”Holger Mueller說,“這個領域的任何進展都將進一步推動語音交互的應用,谷歌這套系統的出現,似乎正在嘗試打破用戶與智能設備的互動極限。”

儘管已經通過該系統取得了令人印象深刻的性能,谷歌仍在持續改進這一模型,希望可以整合上下文信息並執行離線解碼,進一步降低DER,這對延遲不敏感的應用程序更有用。其次谷歌還想直接模擬聲學特徵而不是使用d向量,通過端到端的方式訓練整個講話者區分系統。

與此同時,Chong Wang的團隊還決定將新算法開源並提供給GitHub,以便其他人蔘與並作出貢獻。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章