利用腦記錄產生的合成語音

本分享爲腦機學習者Rose整理髮表於公衆號:腦機接口社區(微信號:Brain_Computer).QQ交流羣:941473018

在這裏插入圖片描述

虛擬聲道改善自然語音合成

這項研究是由語音科學家GopalaAnumanchipalli和Chang實驗室的生物工程研究生Josh Chartier領導。該項研究是基於一系列研究基礎上進行研究的,首次描述了人類大腦的語音中心是如何編排嘴脣,下巴,舌頭,和其他聲道組件的運動以生產流利的語音。

在這項工作中,Anumanchipalli和Chartier意識到先前試圖直接從大腦活動解碼語音可能只會得到有限的成功,因爲這些大腦區域並不直接代表語音的聲學特性,而是協調聲音運動所需的指令。比如說話時需要用口腔和咽喉。

在這裏插入圖片描述
Anumanchipalli說:“聲道的運動和發出的聲音之間的關係很複雜。”“我們認爲,如果大腦中的這些語言中樞編碼的是動作而不是聲音,那麼我們應該在解碼這些信號時嘗試這樣做。”

在他們的新研究中,Anumancipali和Chartier選取了五名在UCSF癲癇中心接受治療的志願者(這些志願者是能完整說話的患者),在他們的腦中臨時植入了電極,以繪製癲癇發作的來源,爲神經外科手術做準備-朗讀數百句話研究人員記錄了已知參與語言產生的大腦區域的活動。

根據參與者聲音的錄音,研究人員使用語言原理對產生這些聲音所需的聲道運動進行逆向工程:在此處將嘴脣壓在一起,在此處收緊聲帶,將舌尖移到嘴頂部,然後放鬆,等等。

這種從聲音到解剖結構的詳細映射使科學家能夠爲每個參與者創建一個可以由其大腦活動控制的逼真的虛擬聲道。這包括兩個“神經網絡”機器學習算法:一個解碼器,將語音過程中產生的大腦活動模式轉換爲虛擬聲道的運動;另一個是合成器,將這些聲道的運動轉換爲參與者語音的合成近似值。
在這裏插入圖片描述
上圖展示了由神經解碼的口語句子合成語音的過程。
a.神經解碼過程從高密度皮層活動中提取相關信號特徵。
b.一個bLSTM神經網絡從ECoG信號解碼運動學表示。
c,一個額外的bLSTM解碼聲學從先前解碼的運動學。聲學是從語音波形中提取出來的光譜特徵(例如MFCCs)。
d.將解碼後的信號合成爲聲波波形。
e.光譜圖顯示了一個參與者所說的兩個句子的頻率內容。
f.由與e段同時記錄的腦信號合成的語音譜圖(重複5次,結果相似)。計算原始音頻和解碼音頻之間的每個句子的MCD。使用五重交叉驗證來尋找一致的譯碼。

在這裏插入圖片描述
研究人員發現,這些算法產生的合成語音明顯優於直接從參與者大腦活動中解碼的合成語音,而且不需要模擬說話者的聲道。在Amazon Mechanical Turk平臺上進行的衆包轉錄測試中,這些算法生成的句子能夠被數百名人類聽衆理解。

在這裏插入圖片描述
就像自然語言一樣,當向抄寫員提供較短的單詞列表供他們選擇時,抄寫員會更成功。抄寫員從25個備選詞列表中準確識別出69%的合成詞,並準確地抄寫了43%的句子。由於可以選擇更具挑戰性的50個單詞,抄寫員的整體準確性下降到47%,儘管他們仍然能夠完美地理解21%的合成句子。

Chartier認爲:“我們仍然有一種方法可以完美地模仿口頭語言。”“我們非常擅長合成“ sh”和“ z”等較慢的語音,並保持語音的節奏和語調以及說話者的性別和身份,但是一些更突然的聲音如“ b”和“ p”有點模糊。不過,與目前可用的準確性相比,我們在此處產生的準確性水平將是實時通信方面的驚人改進。”
在這裏插入圖片描述
Chartier認爲:“想要完美地模仿口語,我們還有很長的路要走。”
“我們很擅長合成‘sh’和‘z’等慢速發音,也很擅長保持說話的節奏和語調,但有些更突然的聲音,比如‘b’和‘p’,聽起來就有點模糊。”

儘管如此,與目前可用的實時通信相比,我們在這裏生成語音的準確性水平的進步也是非常驚人的。
參考
https://www.ucsf.edu/news/2019/04/414296/synthetic-speech-generated-brain-recordings
公衆號 腦機接口社區:利用腦記錄產生的合成語音
本文章由腦機學習者Rose筆記分享,QQ交流羣:941473018
更多分享,請關注公衆號

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章