原创 buttord數字濾波器-matlab

clear ; clc; close all; fs =16000; fs2=fs/2; % 降採樣後採樣頻率的一半 fp1= 3000; % 通帶

原创 音頻文件:wav轉pcm

 c/c++代碼中時常需要讀取pcm格式的音頻文件。pcm格式的音頻文件中,一般約定16位(int)存儲一個數值。   clear; [X, Fs]= audioread('讓子彈飛飛.wav'); x = X * 32768; fil

原创 讀取wav文件對應的label python

import numpy as np from python_speech_features import mfcc # 需要pip install import scipy.io.wavfile as wav import os

原创 讀取多個音頻及其label python

def get_audio_and_transcriptch(txt_files, wav_files, n_input, n_context, word_num_map, txt_labels=None): audio =

原创 dataset的設置

製作數據集 train_data_loader = DataLoader( dataset=train_dataset, batch_size=train_data_args["batch_siz

原创 lstm - pytorch

1 lstm做分類 2 lstm做迴歸 3 lstm的參數輸入   1 圖像分類任務: train_loader中取出來的變量維度: torch.Size([64, 1, 28, 28]) 需要將其改成:torch.Size([64,

原创 基於hmm-gmm的1到10喚醒-python

可供參考的項目有: https://github.com/jayaram1125/Single-Word-Speech-Recognition-using-GMM-HMM-     數據集得自己造:   # --------------

原创 EM算法-python

em算法的細節可以看書   #模擬兩個正態分佈的均值估計 from numpy import * import numpy as np import random import copy SIGMA = 6 EPS = 0.0

原创 設計低通濾波器-Matlab

clear ;close all; filename ='./23.wav'; [x ,fs] = audioread(filename); parametricEQ = fdesign.parameq('N,Flow,Fhigh,

原创 hmm python

hmm已知模型(A,B,pai)和觀測序列,計算在該模型下觀測序列出現的概率。     import numpy as np import csv class HMM(object): def __init__(self,N,

原创 以vad爲例在C++中展示語音信號處理的算法以class形式的實現方式

語音算法中,如果你平常用C進行實現, 你會發現很累,要自己造很多輪子。現在我看看c++中算法以類的形式是怎麼實現的。 vad是一個特別簡單麼,明瞭的算法,比較適合入門。  https://github.com/robin1001/vad

原创 深度學習在語音中的應用——pytorch

基於神經網絡的深度學習在音頻語音中除了ASR,TTS還有許多應用。其中有3點需要注意: 1 數據讀取(特徵的 抽取) 2 模型的選擇  2.1 cnn     2.2 lstm 3 bathsize, 誤差函數的選擇 3.1激活函數 3.

原创 以vad爲例在python中展示語音信號處理 的算法實現方式

在語音信號處理中,我們習慣使用函數式編程去實現算法的某個功能。這種編程方式在使用Matlab, c的過程中得到強化。但在python/ C++中, 出現了class這種功能,這使得我們在算法實現時可以做出些改變。現在我們以語音端點檢測爲例

原创 音頻信號處理中Matlab / python/c/ c++在sample序列化訪問的不同處理思路

1. Matlab Matlab中數組a的第一個元素用a[1]表示。 數組中第100個點到1000個點的子段用a(100:1000)表示。數據長度L爲: L=  1000-(100-1)= 901 幀移爲inc,第n幀的第m個點在音頻序列

原创 設計bandstop濾波器 -Matlab/c/c++

第一種方式:利用Matlab自帶的函數。   clear ;close all; filename ='25.wav'; [x ,fs] = audioread(filename); parametricEQ = fdesign.p