DeepFilterNet复现

大概框架

有两路特征,一个ERB特征,另外一个是STFT之后的复数特征。先使用ERB滤波器对ERB特征进行增益,然后再传入DNN模型,两阶段模型。
整体时延最低可达5ms。
这里提到的DeepFilter,其实就是说用神经网络对TF谱进行操作。因为这篇文章比较早,所以叫这么一个名字。

ERB特征

ERB(Equivalent Rectangular Bandwidth)是一个与人耳听觉敏感性密切相关的概念,它用于描述人耳在特定频率下能感知的频带宽度。ERB 模型基于听觉系统的生理和心理特性,尤其是内耳(耳蜗)的频率选择性特点。

基本概念

ERB 模型的基础是耳蜗内部的基底膜,这是一种可以响应不同频率的生物机械结构。不同频率的声音会在基底膜的不同位置产生峰值响应。每个峰值对应的频率范围就是一个临界带(Critical Band),这个带宽可以理解为耳蜗可以分辨两个声音频率差异的最小区域。

ERB的计算

ERB带宽的具体计算方法取决于具体的模型,但广泛使用的一个公式是Moore和Glasberg(1983年)提出的,他们基于心理声学实验的结果得出以下关系式:

\[\[ \text{ERB}(f) = 24.7 \times (4.37 \times f/1000 + 1) \] \]

这里,( f ) 是中心频率,单位是 Hz,(\text{ERB}(f)) 的单位也是 Hz。
对于实际任务中的处理,优缺点皆有。
由于是相当于一个经验性的成果,所以和Mel频谱类似,只能相当于提供一个粗筛,并不能精细化学习。
优点在于对于算力的要求低,不需要更多的训练就可以得到一个比原来好一些的结果。

ERB滤波器

基于ERB的概念,可以设计出一系列滤波器,这些滤波器的带宽与频率相关,模拟耳蜗对声音的自然处理方式。这种类型的滤波器被称为 ERB 滤波器或者伽马通滤波器(Gamma Tone Filter),每个滤波器覆盖一个临界带宽。通过这些滤波器,音频信号可以被分解成多个频带,每个频带大致对应人耳在该频率下的听觉感知。

应用

ERB 滤波器在多个领域有着广泛的应用,包括:

  • 听力学研究:研究和模拟听觉损失,开发助听设备。
  • 语音处理:改善语音识别系统的性能,特别是在模拟人类语音感知方面。
  • 音乐技术:在音乐合成和音效处理中模拟更自然的听觉效果。
  • 心理声学实验:理解听觉感知的机制,进行相关的测试和实验。

通过这种方法,ERB 滤波器不仅可以提供与人耳听觉特性相符的带宽过滤,而且还能在各种应用中模拟人耳的自然听觉反应,从而达到提高音频处理质量和效果的目的。

具体细节


更具体的结构如图所示。

  1. 架构细节
    最高支持48khz,然后FFT帧长大概在5ms到30ms之间,重叠大概在50%。
    ERB特征使用对数能量频谱,对它进行对数平均归一化,衰减在1s。然后使用可配置的滤波器,主要是在频带数量方面。
    复数频谱特征则使用同样的归一化方法。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章