深度學習降噪方案-RNNoise源碼解析 - 特徵提取

原創

2020-06-19 18:21

RNNoise是一個採用音頻特徵抽取+深度神經網絡結合的降噪方案. 更多相關基本信息, 請查看 RNNoise學習和翻譯系列

1.讀取文件生成特徵的主循環

Denoise.c 中的main函數是特徵提取部分的主流程.

循環之外的內容有:

主循環主要做了三件事:

這部分代碼邏輯來說就是: 循環讀取語音和噪音, 混成訓練數據, 併產生對應的特徵和標記數據.

其中, 數據片大小是20ms, 步進速度是10ms, 有10ms的重疊數據.

其框圖如下:

2. 構造不同場景和條件的訓練

一個有效的模型, 爲了能在現實場景下工作的很好, 必須要刷題, 也要實戰, 這意味着訓練用的數據必須花樣百出. 一種最基本的考慮是使用不同SNR的語音來進行訓練, 實驗表明使用SNR範圍較廣的訓練數據得到的訓練模型對不同的SNR有更好的支持度(參考鏈接的3.1節 SNR維度)

本模型中採用了以下幾種變化參數:

各取值的範圍:

3. 特徵和標記提取代碼

該部分代碼的數據流向圖如下, 從中我們可以發現, 執行梳狀濾波那個函數是沒必要的:

其中比較關鍵的子函數有:

其中的幀分析和特徵提取部分都會緩存部分數據. 比如幀分析會緩存一幀的數據, 加上當前幀, 共20ms的數據用.

該部分代碼的數據流向圖如下:

其中比較關鍵的子函數有:

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.