DeepFilterNet复现

原創

2024-05-08 14:25

大概框架

有两路特征，一个ERB特征，另外一个是STFT之后的复数特征。先使用ERB滤波器对ERB特征进行增益，然后再传入DNN模型，两阶段模型。
整体时延最低可达5ms。
这里提到的DeepFilter，其实就是说用神经网络对TF谱进行操作。因为这篇文章比较早，所以叫这么一个名字。

ERB特征

ERB（Equivalent Rectangular Bandwidth）是一个与人耳听觉敏感性密切相关的概念，它用于描述人耳在特定频率下能感知的频带宽度。ERB 模型基于听觉系统的生理和心理特性，尤其是内耳（耳蜗）的频率选择性特点。

基本概念

ERB 模型的基础是耳蜗内部的基底膜，这是一种可以响应不同频率的生物机械结构。不同频率的声音会在基底膜的不同位置产生峰值响应。每个峰值对应的频率范围就是一个临界带（Critical Band），这个带宽可以理解为耳蜗可以分辨两个声音频率差异的最小区域。

ERB的计算

ERB带宽的具体计算方法取决于具体的模型，但广泛使用的一个公式是Moore和Glasberg（1983年）提出的，他们基于心理声学实验的结果得出以下关系式：

\[\[ \text{ERB}(f) = 24.7 \times (4.37 \times f/1000 + 1) \] \]

这里，( f ) 是中心频率，单位是 Hz，(\text{ERB}(f)) 的单位也是 Hz。
对于实际任务中的处理，优缺点皆有。
由于是相当于一个经验性的成果，所以和Mel频谱类似，只能相当于提供一个粗筛，并不能精细化学习。
优点在于对于算力的要求低，不需要更多的训练就可以得到一个比原来好一些的结果。

ERB滤波器

基于ERB的概念，可以设计出一系列滤波器，这些滤波器的带宽与频率相关，模拟耳蜗对声音的自然处理方式。这种类型的滤波器被称为 ERB 滤波器或者伽马通滤波器（Gamma Tone Filter），每个滤波器覆盖一个临界带宽。通过这些滤波器，音频信号可以被分解成多个频带，每个频带大致对应人耳在该频率下的听觉感知。

应用

ERB 滤波器在多个领域有着广泛的应用，包括：

听力学研究：研究和模拟听觉损失，开发助听设备。
语音处理：改善语音识别系统的性能，特别是在模拟人类语音感知方面。
音乐技术：在音乐合成和音效处理中模拟更自然的听觉效果。
心理声学实验：理解听觉感知的机制，进行相关的测试和实验。

通过这种方法，ERB 滤波器不仅可以提供与人耳听觉特性相符的带宽过滤，而且还能在各种应用中模拟人耳的自然听觉反应，从而达到提高音频处理质量和效果的目的。

具体细节

更具体的结构如图所示。

架构细节
最高支持48khz，然后FFT帧长大概在5ms到30ms之间，重叠大概在50%。
ERB特征使用对数能量频谱，对它进行对数平均归一化，衰减在1s。然后使用可配置的滤波器，主要是在频带数量方面。
复数频谱特征则使用同样的归一化方法。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

DeepFilterNet复现

大概框架

ERB特征

具体细节

DeepFilterNet復現

[USACO16JAN]憤怒的奶牛Angry Cows (單調隊列優化dp)

[NOI2014] 魔法森林 (二分答案,並查集)

[USACO10MAR]偉大的奶牛聚集Great Cow Gat… ($dfs$,樹的遍歷)

[USACO17DEC]Barn Painting (樹形$dp$)

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結