台部落xmucas

基本概念[1] 目標函數零和遊戲（zero-sum game）納什均衡 minimax算法 GAN借鑑了零和遊戲的思想，引入生成網絡和辨別網絡，讓兩個網絡互相博弈，當辨別網絡不能辨別數據來自於真實分佈還是生成網絡的時候，此時的

2018-09-04 12:15:02

提取流程 1.UBM universal background model[1] 使用GMM建模，UBM的訓練通過EM算法完成，有兩種方法： - 所有的數據訓練出來一個UBM，需要保證訓練數據的均衡 - 訓練多個UBM，然後合在一

2018-09-04 12:15:02

基本概念聲帶每開啓和關閉一次的時間就是基音週期（pitch period）,倒數即爲音頻頻率（pitch frequency）[1]。基音頻率取決於聲帶的大小、厚薄、鬆緊程度，以及聲門上下之間的氣壓差的效應等。最低可達80Hz，最

2018-09-04 12:15:02

現在的端到端語音識別的第一個“端”大部分還是使用人爲設定的語音特徵，比如FBANK/PLP，更高級的端到端語音識別輸入是語音波形，輸出是文字。近幾年也有一些工作是使用神經網絡（比如CNN）來學習傳統的特徵提取步驟，取得了跟使用傳統的語

2018-09-04 12:14:59

特點 power-normalized cepstral coefficients相比於MFCC特徵： - 在噪聲和混響場景下提升識別效果，尤其在訓練語料是clean語音的時候 - 相比於MFCC，計算量提升34.6% 使用pncc

2018-09-04 12:14:57

PLP的由來 Linear prediction可以用來獲得語音功率譜P(ω) 的全極點模型A(ω) ，也可以把LP看做獲取P(ω) 的頻譜包絡的手段，參考前面的文章由於LP對待所有頻率一視同仁，它不符合人耳的聽覺機理，比如人耳對於

2018-09-04 12:14:57

變量定義 1.warping function F=c(1),c(2)...c(k)...c(K) 其中c(k)=(i(k),j(k)) 表示兩個語音特徵序列A和B之間的映射關係。 2.time-normalized distan

2018-09-04 12:14:56

傳統方法的侷限性[1] HMM Markovian Assumption p(qt|q<t)=p(qt|qt−1) 轉移概率只跟前一個時刻有關，無法對長時依賴性建模。 Conditional Independence Assump

2018-09-04 12:14:56

boost C++庫簡介 linux下載安裝大部分庫不需要編譯，使用的時候只需要include相應的hpp文件即可，少數庫需要提前編譯。假設下載的庫文件解壓到目錄/path/to/boost 使用boost數學庫中的expint

2018-09-04 12:14:56

History encoder-decoder 2014年Kyunghyun Cho[1]提出了RNN Encoder-Decoder的網絡結構，主要用在翻譯上面。 encoder將變長的輸入序列映射到一個固定長度的向量，decoder

2018-09-04 12:14:25