原创 GMM-HMM孤立詞識別

之前做過的GMM-HMM孤立詞識別,現在整理一下。 這裏我們把輸入的語音當做語音識別中的一個音素來建模,假定建模的HMM狀態鏈是7狀態的,因此, 孤立詞識別就是隻用到了聲學模型部分,沒有涉及語言模型這些。 1、將輸入的一段語音進行分幀,

原创 WSOLA

摘要 時域壓擴(Time-scale modification簡稱TSM,又叫變速不變調)是一個能夠改變音頻的"語速"而不改變其音調的算法,是一個在目前音頻信號處理中必不可少的一種重要算法,然而音頻信號是多種多樣的(包含了各種諧波(基音,

原创 編解碼重要概念

幀的概念: 音頻的幀的概念沒有視頻幀那麼清晰,幾乎所有視頻編碼格式都可以簡單的認爲一幀就是編碼後的一副圖像。 但音頻幀跟編碼格式相關,它是各個編碼標準自己實現的。因爲如果以PCM(未經編碼的音頻數據)來說,它根本就不需要幀的概念,根據採樣

原创 開源音頻處理軟件/項目

−目錄 25款開源音頻編輯軟件 Audacity Power Sound Editor mp3DirectCut Music Editor Free Wavosaur Traverso DAW Ardour

原创 編解碼評價指標

通過衡量比較各種語音編碼器或語音編碼算法的性能指標來評價語音編碼器的好壞。 指標有:編碼速率、語音質量、頑健性、時延、計算複雜性、算法的擴展性等。對同一種算法,這些性能指標之間有矛盾性,必須根據實際情況進行取捨和折衷。 編碼速率:是語音編

原创 G711原理

G.711是國際電信聯盟ITU-T定製出來的一套語音壓縮標準,它代表了對數PCM(logarithmic pulse-code modulation)抽樣標準,是主流的波形聲音編解碼標準,主要用於電話。 主要用脈衝編碼調製對音頻採樣,採樣

原创 語音編解碼G.711 G.729

1. 語音編碼分類    (1)波形編碼: 以逼近聲音波形爲目標,其代表算法有G.711,其聲音清楚度好,語音的自然度高,但是壓縮效率比較差,常在32kbps以上。    (2)參數編碼: 將人的聲道抽象成一個發聲模型,對這個模型的參數進

原创 python 多mic錄音WASAPI

問題:python在window上錄多麥數據報錯:python OSError: [Errno -9998] Invalid number of channels ? import pyaudio import wave CHUNK

原创 keras中epoch,batch,loss,val_loss相關概念

1、epoch Keras官方文檔中給出的解釋是:“簡單說,epochs指的就是訓練過程接中數據將被“輪”多少次” (1)釋義: 訓練過程中當一個完整的數據集通過了神經網絡一次並且返回了一次,這個過程稱爲一個epoch,網絡會在每個epo

原创 編解碼幾個重要概念

幀的概念: 音頻的幀的概念沒有視頻幀那麼清晰,幾乎所有視頻編碼格式都可以簡單的認爲一幀就是編碼後的一副圖像。 但音頻幀跟編碼格式相關,它是各個編碼標準自己實現的。因爲如果以PCM(未經編碼的音頻數據)來說,它根本就不需要幀的概念,根據採樣

原创 keras搭建LSTM處理可變 長序列

衆所周知,LSTM的一大優勢就是其能夠處理變長序列。而在使用keras搭建模型時,如果直接使用LSTM層作爲網絡輸入的第一層,需要指定輸入的大小。如果需要使用變長序列,那麼,只需要在LSTM層前加一個Masking層,或者embeddin

原创 語音喚醒

    喚醒可以看成是一種小資源的關鍵詞檢索任務,其中小資源是指計算資源比較小和空間存儲資源比較小,因此它的系統框架跟關鍵詞檢索的系統會有一定的區別,目前常用的系統框架主要有Keyword/Filler Hidden Markov Mod

原创 python音頻處理相關庫

音頻處理庫—librosa 官網:http://librosa.github.io/librosa/index.html 一個免費、跨平臺、開源的音頻I/O庫——PortAudio  官網:http://www.portaudio.com

原创 tensorflow從pb文件導出模型圖

運行下面的程序,將graph信心保存在log目錄: #!/usr/bin/env python # -*- coding:utf-8 -*- import tensorflow as tf from tensorflow.python.p