產業實踐推動科技創新,京東科技集團3篇論文入選ICASSP 2021

ICASSP 2021將於2021年6月6日-11日在加拿大多倫多拉開序幕,憑藉在語音技術領域的紮實積累和前沿創新,京東科技集團的_3篇_論文已經被 ICASSP 2021接收。

ICASSP全稱International Conference on Acoustics, Speech and Signal Processing(國際聲學、語音與信號處理會議),是由IEEE主辦的全世界最大的,也是最全面的信號處理及其應用方面的頂級學術會議。京東科技集團此次的入選論文,在國際舞臺全方位展示了 自身在語音增強、語音合成、多輪對話方面的實力。

01.Neural Kalman Filtering for Speech Enhancement

基於神經卡爾曼濾波的語音增強算法研究

*論文鏈接:https://arxiv.org/abs/2007.13962

由於複雜環境噪聲的存在,語音增強在人機語音交互系統中扮演重要的角色。基於統計機器學習的語音增強算法通常採用機器學習領域現有的常用模塊(如全連接網絡、遞歸神經網絡、卷積神經網絡等)構建增強系統。然而,如何將傳統語音信號處理中基於專家知識的最優化濾波器設計理論,有效地應用到基於機器學習的語音增強系統中仍是一個仍未解決的問題。

京東科技集團入選論文《Neural Kalman Filtering for Speech Enhancement基於神經卡爾曼濾波的語音增強算法研究》提出了 神經卡爾曼濾波的語音增強框架,將神經網絡和最優濾波器理論有機結合,並採用監督學習方法訓練得到卡爾曼濾波的最優權重。

研究人員首先構建了基於遞歸神經網絡的語音時序變化模型。和傳統的卡爾曼濾波器相比,該模型摒除了語音變化服從線性預測模型的非合理假設,可以針對實際語音的非線性變化進行建模。一方面,基於該時序模型和卡爾曼隱狀態向量信息,算法首先得到語音長時包絡預測。另一方面,通過融合當前時刻的觀測信息,系統進一步求解基於傳統信號處理的維納濾波的語音頻譜預測。系統最終輸出是語音長時包絡預測和維納濾波預測的線性組合。基於傳統卡爾曼濾波器理論,本系統直接得到線性組合權重的最優解,通過設計端到端系統,可以同步更新語音時變網絡、和維納濾波器相關的噪聲估計網絡的權重。本研究基於 Librispeech語音集PNL-100Nonspeech-SoundsMUSAN噪聲集 的實驗結果表明,所提算法在信噪比增益、語音感知質量(PESQ)和語音可懂度(STOI)指標上均取得了比傳統基於UNET和CRNN框架的語音增強算法更好的性能。

02.Improving Prosody Modelling with Cross-Utterance Bert Embeddings for End-to-End Speech Synthesis

基於跨句信息的端到端語音合成韻律建模

*論文鏈接:

https://www.zhuanzhi.ai/paper/92135c7f518e7cda63f7fcb4b940a4c1

儘管目前基於端到端的語音合成技術已經實現了比較自然,韻律相對豐富的語音合成效果,但是並沒有採用篇章結構信息而是隻採用了當前句的語言學特徵進行語音合成。通常,韻律信息是和上下文的篇章結構強烈相關的,同樣的一句文本在不同的上下文語境下會有完全不同的韻律表現,因此只用當前句子文本特徵進行語音合成的端到端系統在合成一段文本的時候,很難根據上下文信息將一段文本轉換爲自然的、韻律表現豐富的語音。

京東科技集團入選論文《Improving Prosody Modelling with Cross-Utterance Bert Embeddings for End-to-End Speech Synthesis基於跨句信息的端到端語音合成韻律建模》採用了 目前主流的BERT模型來提取待合成文本的跨句特徵向量,然後利用該上下文向量改善基於端到端的語音合成模型的韻律效果。

▲圖2:模型結構示意圖▲

研究人員沒有采用任何顯示的韻律控制信息,而是通過BERT語言模型提取了待合成句子的上下文句子的跨句特徵表徵,並且將該特徵表示作爲了目前主流的端到端的語音合成算法的額外輸入。論文探討了兩種不同跨句特徵的使用方式,第一種是將所有的上下文句子的跨句特徵拼接起來用來作爲端到端的語音合成系統的一個整體的輸入,第二種方式是將所有的上下文句子的跨句特徵作爲一個序列,然後用待合成文本的每個語音單元和這個序列進行注意力計算,然後可以通過計算得到的注意力進行對上下文句子的跨句特徵進行加權求和計算得到每個語音單元對應的跨句特徵。第二種跨句特徵使用方式,可以讓每個發音單元得到一個細粒度的、對當前單元發音有幫助的跨句特徵。

實驗結果表明,本研究在端到端的語音合成系統中結合跨句特徵之後,可以有效的改善合成段落文本自然度和表現力。 本研究分別在中文和英文有聲讀物的數據集上驗證了這一實驗結果。並且,在對比測試結果中,相比我們的基於端到端的基線模型,絕大部分測試者更加喜歡本研究中結合了跨句向量表徵的語音合成算法合成出的音頻。

03.Conversational Query Rewriting with Self-supervised Learning

基於自監督學習的對話Query改寫

*論文鏈接:

https://github.com/note-lh/paper/blob/main/Conversational_Query_Rewriting_with_Self-supervised_Learning.pdf

在多輪對話系統中,用戶傾向於簡短、口語化的表達,表述中存在着大量信息缺失和指代的現象。這些現象導致了對話機器人難以理解用戶的真實意圖,大大增加了系統應答的難度。爲提高對話系統的水平,Query改寫根據用戶的歷史會話,補全用戶的話語,以恢復所有省略和指代的信息。然而,目前存在的Query改寫技術均採用監督的學習方法,模型的效果嚴重受限於標註數據的規模,對技術在真實業務場景的落地產生了較大的阻礙。另外,用戶問題在發生改寫後,意圖是否發生變化並沒有受到已有工作的關注,如何保證用戶問題在改寫後的意圖一致性仍是一個亟待解決的問題。京東科技集團入選論文《Conversational Query Rewriting with Self-supervised Learning 基於自監督學習的對話Query改寫》 提出了自監督的Query改寫方法。 當用戶問題與歷史會話出現共現詞語時,會以特定地概率刪除共現詞或者採用代詞進行替換,最後Query改寫模型根據歷史會話還原出用戶的原始問題。相較於監督學習方法,自監督的學習方式可低成本的獲取大量訓練數據,充分發揮模型的表徵學習能力。

京東研究人員還進一步提出改進模型Teresa, 從兩個方面提高改寫模型的質量和準確性。一是在Transformer編碼層引入關鍵詞檢測模塊, 提取關鍵詞指導句子生成。首先對歷史會話(context)的編碼輸出構建自注意力圖,得到歷史會話中詞語之間的關聯度;然後利用Text Rank算法計算詞語的重要性得分;最後詞語的重要性得分作爲先驗信息融入解碼器,指導模型生成含有更多關鍵信息的問句。二是提出意圖一致性模塊, 在Transformer編碼器的輸入文本中增加一個特殊標籤[CLS], 獲取文本內容的意圖分佈,通過約束意圖分佈保持意圖一致性。原始會話(Context, Query)與生成的句子(Target)共享Transformer編碼器,分別得到改寫前後的意圖分佈,我們將兩者的分佈保持一致,進而保證生成句子的意圖一致性。

京東科技集團作爲京東對外提供技術服務的核心板塊,一直致力於前沿研究探索,並持續以科技引領,助力城市和產業實現數智化升級。截至目前,京東科技集團在AAAI、IJCAI、CVPR、KDD、NeurIPS、ICML、ACL、ICASSP等國際AI頂級會議上共發表相關論文近 350+篇 ,並在多項國際性學術賽事中斬獲 19項 世界 第一 。相信未來,京東科技集團將持續在語音語義、計算機視覺、機器學習等領域發力,以科技助力實體經濟,切實改變每個人的生活。

推薦閱讀

歡迎點擊【京東科技】,瞭解開發者社區

更多精彩技術實踐與獨家乾貨解析

歡迎關注【京東科技開發者】公衆號

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章