Google開源人工智能可以區分語音,準確度達到92%

Diarization - 將語音樣本劃分爲獨特的,同質的片段的過程,根據誰說什麼,何時 - 對機器來說不像人類那麼容易,並且訓練機器學習算法來執行它比它更難聲音。強大的二值化系統必須能夠將新個體與之前未遇到的語音段相關聯。

但谷歌的人工智能研究部門已經朝着高性能模式取得了令人鼓舞的進展。在一篇新論文(“ 全監督演講者Diarization ”)和隨附的博客文章中,研究人員描述了一種新的人工智能(AI)系統,該系統“以更有效的方式利用受監督的揚聲器標籤”。

該論文的作者聲稱核心算法實現了對於實時應用程序而言足夠低的在線分類錯誤率(DER) - 在NIST SRE 2000 CALLHOME基準測試中爲7.6%,而谷歌之前的方法爲8.8%DER - 可在開放時使用Github上的源代碼。

上圖:流式音頻上的揚聲器分類,底部軸的不同顏色表示不同的揚聲器。

圖片來源:谷歌

谷歌研究人員的新方法通過遞歸神經網絡(RNN)模擬說話者的嵌入(即,單詞和短語的數學表示),RNN是一種機器學習模型,可以使用其內部狀態來處理輸入序列。每個發言者都以自己的RNN實例開始,該實例在給定新嵌入的情況下不斷更新RNN狀態,使系統能夠學習在發言者和話語之間共享的高級知識。

“由於該系統的所有組件都可以以監督的方式學習,因此在可以獲得具有高質量時間標記的揚聲器標籤的訓練數據的情況下,它優於無監督系統,”研究人員在論文中寫道。“我們的系統受到全面監督,並且能夠從帶有時間標記的揚聲器標籤的示例中學習。”

在未來的工作中,團隊計劃優化模型,以便它可以集成上下文信息以執行離線解碼,他們期望這將進一步減少DER。他們還希望直接對聲學特徵進行建模,以便整個揚聲器系統可以進行端到端的訓練。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章