實時通信服務中的語音解混響算法實踐

導讀:

 

隨着音視頻通信會議越來越普及,與會各方在不同環境中遇到了越來越明顯且差異的混響場景,譬如大會議室場景、玻璃會議室場景和小房間且隔音材料不佳場景等。爲了保證更好的聽音可懂度和舒適度,通信中的語音解混響需求愈來愈重要且緊迫。本文講解了網易雲信在語音解混響以及提升通信效果方面的一些研發進展和觀點,重點研究基於自適應結合雙麥信號相關性的方案,總體目標是在保真語音情況下提升解混響效果。

文|張龍 網易雲信資深算法工程師

一、語音混響的相關介紹

(一)混響介紹

下圖描述了語音混響產生的原因和過程,信號中混響程度取決於:

  • 房間密閉形態;
  • 房間大小;
  • 反射材質;
  • 說話人距離麥克風距離等。

(注意區分回聲含義)

如下圖,根據到達時間的先後,混響一般分爲:直達聲+早期混響+後期混響, 他們在聲學理解上有不同的意義。

下圖展示語音混響 果:

(二)混響和解混響研究發展歷程

  • 最初的研究來自對房間內聲音傳播現象的基礎研究,隨後應用於音樂廳、教室等空間的聲學設計,爲了更好地傳播聲音包括音樂、人聲等;
  • 接下來研究了混響對於語音可懂度的影響;
  • 一些研究者關注混響帶來的正向收益:提升語音自然度、層次感和空間感等,包括可懂度提升。研究者通過人造混響感來提升多樣體驗,譬如娛樂、遊戲和音樂領域;如下圖,網易雲信基於 Feedback Delay Network(反饋延時網絡)方案提供人造混響感的能力;

  • 70 年代開始,語音解混響的研究主要關注混響對通話和錄音的負面效果,提升可懂度和質量; 
  • 04~05 年之後,免提通信視訊通話會議興起,結合 11 年後語音助手(尤其強調遠場)的發展,語音解混響的研究和應用越來越廣泛。

我們根據語音解混響的應用將評估性能的指標進行了分類:

二、重點算法和研究進展

結合算法實踐和運算考慮,當前網易雲信從傳統算法開始實現語音解混響,配合降噪算法提升通信體驗。

下圖將語音解混響算法根據信號模型目標進行了大致分類:

本文主要關注以下重點:

  • 線性預測類演進算法;
  • 相關性抑制類算法;
  • 然後討論後續結合深度學習的計劃。

(一) AWPE 算法

模型轉換可得:

Xt^m 表示第 m 個麥克風在 t 時刻接收到的信號,Lm 表示麥克風數目;hk^m表示信源 s 到達第 m 個麥克風的衝擊響應,Lh 是衝擊響應長度;nt^m 表示第 m 個麥克風在 t 時刻接收到的加性噪聲信號成分。

其中

表示麥克風 m 在 t 時刻前的 D 時刻及之前接收到的數據。dt^m 是前述前期反射信號,即解混響的目標信號;當然也有直接將求解源信號 s 作爲目標信號的模型,但不是主流,因爲前期混響一般有利於聽覺和識別系統。

繼續求解上述模型可得:

對上述模型進行時頻域轉換並引入 Recursive Least Squares 轉換可得:

求解上述目標函數得到如下解:

上述求解可總結爲如下步驟:

(二)相關性降噪解混響算法介紹

基於後期混響信號部分是散射場噪聲的假設, 利用麥克間散射場噪聲相關性估計方法計算後期混響成分大小,然後採用譜減法估計增益的方式解混響。經驗表明,這一類算法在降散射場噪聲方面性能更優。

信號模型:

計算如下中間結果:

最後得到如下降噪增益,施加增益至輸入信號可解混響目標:

(三)綜合應用

  • 對於通信任務,目前網易雲信重點關注 AWPE 串接降噪的方案實現;同步考慮在散射場噪聲強的場景結合 CDR 抑制算法提升性能;

通信中上行必然包含降噪模塊,解混響算法需要配合降噪實現聯合調優的性能,一般通過模塊和參數調試實現。

  • 智能語音任務,一般採用線性語音解混響作前期增強處理:

未來趨勢:

\

三、算法實現和運算優化

關於上述第二節中算法具體實現中的關注點:

  • 設置好 buffer 存取機制(涉及麥克數目、歷史幀數、頻點等),降低計算耗時;RLS 算法注意使用 Woodbury matrix identity 規則替換矩陣求逆;

  • 如公式所示,這一類統計信息可以嘗試用平滑更新機制代替;

  • 注意部分矩陣儘量採用對角化,甚至實數化實現計算量降低;

  • ​可以通過表格化,頻率索引減少計算量。

——設定理想散射場噪聲模型。

四、結果彙報和後續展望

(一)當前結果展示

當前結合降噪我們設置解混響階段優先語音保真;當前算法處理混響能力約 800ms~1s,最重要的調試參數是:遺忘因子和 block 數目。

(二)後續展望

通信領域而言:

  • 遺忘因子的自適應實現方案;
  • 深度學習方案實現語音解混響和降噪的融合,替代目前結合傳統算法的方案。

網易雲信當前優化:

未來:

參考文獻

[1] Xiang, Teng, Jing Lu, and Kai Chen. "Multi-channel adaptive dereverberation robust to abrupt change of target speaker position." The Journal of the Acoustical Society of America 145.3 (2019): EL250-EL256.

[2] Taniguchi, Toru, et al. "Generalized weighted-prediction-error dereverberation with varying source priors for reverberant speech recognition." 2019 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA). IEEE, 2019.

[3] Tang, Xinyu, et al. "A Time-Varying Forgetting Factor-Based QRRLS Algorithm for Multichannel Speech Dereverberation." 2020 IEEE International Symposium on Signal Processing and Information Technology (ISSPIT). IEEE, 2020.

[4] Schwarz, Andreas. Dereverberation and Robust Speech Recognition Using Spatial Coherence Models. Diss. Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU), 2019.

作者介紹

張龍,就職於網易雲信音視頻實驗室,目前從事音頻信號增強和動態增益控制等研發工作。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章