PyTorch頻譜特徵工具 spectra_torch

spectra_torch

鏈接:https://github.com/mechanicalsea/spectra

摘要

Github 提供了 C++ 版本和 Python Numpy 版本的語音頻譜特徵提取工具,給深度模型設計的復現提出了挑戰。深度學習給語音識別提供的最新的解決方案,建立一個深度學習框架的語音頻譜特徵提取工具能夠提供更加高效的模型構建與開發策略。spectra_torch 提供了 PyTorch 版本的語音頻譜特徵提取方法,例如 MFCC、濾波器組和基於能量的 VAD。測試表明:PyTorch 版本的 MFCC 提取效率優於 Numpy 版本的 MFCC,具體地說,MacOS CPU 計算機上快 0.1s/MFCC。

安裝方法

spectra_torch 提供了 Pypi 安裝方法:pip install --upgrade spectra-torch
必需的工具包:torchtorchaudio

功能

  • 梅爾頻譜倒譜系數 Mel Frequency Cepstral Coefficients (MFCC)
  • 濾波器組 Filterbank Energies
  • 指數濾波器組 Log Filterbank Energies
  • 聲音動態檢測 Voice Activity Detection (VAD)

使用方法

import spectra_torch.base as mm
import torchaudio as ta

sig, sr = ta.load_wav('singing-01-003.wav')
sig = sig[0]
mfcc = mm.mfcc(sig, sr) # MFCC
starts, detection = mm.is_speech(sig, sr, speechlen=1) # VAD

歡迎大家的討論,歡迎大家的建議。

參考

[1] spectra_torch:https://github.com/marsbroshok/VAD-python
[2] James Lyons et al. (2020, January 14). jameslyons/python_speech_features: release v0.6.1 (Version 0.6.1). Zenodo. http://doi.org/10.5281/zenodo.3607820
[3] VAD-python: https://github.com/jameslyons/python_speech_features

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章