原创 生成對抗網絡GAN(一) 簡介和變種

基本概念[1] 目標函數 零和遊戲(zero-sum game) 納什均衡 minimax算法 GAN借鑑了零和遊戲的思想,引入生成網絡和辨別網絡,讓兩個網絡互相博弈,當辨別網絡不能辨別數據來自於真實分佈還是生成網絡的時候,此時的

原创 聲學特徵 ivector

提取流程 1.UBM universal background model[1] 使用GMM建模,UBM的訓練通過EM算法完成,有兩種方法: - 所有的數據訓練出來一個UBM,需要保證訓練數據的均衡 - 訓練多個UBM,然後合在一

原创 語音合成vocoder(二) 基頻參數

基本概念 聲帶每開啓和關閉一次的時間就是基音週期(pitch period),倒數即爲音頻頻率(pitch frequency)[1]。 基音頻率取決於聲帶的大小、厚薄、鬆緊程度,以及聲門上下之間的氣壓差的效應等。最低可達80Hz,最

原创 端到端語音識別(四) raw wavform

現在的端到端語音識別的第一個“端”大部分還是使用人爲設定的語音特徵,比如FBANK/PLP,更高級的端到端語音識別輸入是語音波形,輸出是文字。 近幾年也有一些工作是使用神經網絡(比如CNN)來學習傳統的特徵提取步驟,取得了跟使用傳統的語

原创 聲學特徵 PNCC

特點 power-normalized cepstral coefficients相比於MFCC特徵: - 在噪聲和混響場景下提升識別效果,尤其在訓練語料是clean語音的時候 - 相比於MFCC,計算量提升34.6% 使用pncc

原创 聲學特徵 PLP

PLP的由來 Linear prediction可以用來獲得語音功率譜P(ω) 的全極點模型A(ω) ,也可以把LP看做獲取P(ω) 的頻譜包絡的手段,參考前面的文章 由於LP對待所有頻率一視同仁,它不符合人耳的聽覺機理,比如人耳對於

原创 DTW(Dynamic Time Warping)算法

變量定義 1.warping function F=c(1),c(2)...c(k)...c(K) 其中c(k)=(i(k),j(k)) 表示兩個語音特徵序列A和B之間的映射關係。 2.time-normalized distan

原创 端到端語音識別(一) 概況

傳統方法的侷限性[1] HMM Markovian Assumption p(qt|q<t)=p(qt|qt−1) 轉移概率只跟前一個時刻有關,無法對長時依賴性建模。 Conditional Independence Assump

原创 boost庫使用

boost C++庫簡介 linux下載安裝 大部分庫不需要編譯,使用的時候只需要include相應的hpp文件即可,少數庫需要提前編譯。 假設下載的庫文件解壓到目錄/path/to/boost 使用boost數學庫中的expint

原创 端到端語音識別(三) Sequence to Sequence and Attention

History encoder-decoder 2014年Kyunghyun Cho[1]提出了RNN Encoder-Decoder的網絡結構,主要用在翻譯上面。 encoder將變長的輸入序列映射到一個固定長度的向量,decoder