kaldi 說話人自適應


自適應的作用是,補償實際數據與已經訓練的三音素模型中聲學條件不匹配的問題,包括說話人特性(說話方式、口音等)及環境特性(如錄音設備、房間混響等)。在GMM-HMM模型中,自適應方法有特徵空間變換和模型空間變換。Kaldi中主要採用的是特徵空間變換方法: LDA、MLLT和fMLLR,其本質都是在訓練過程中估計變換矩陣,然後構造變換後的特徵,再迭代訓練新的聲學模型參數。LDA+MLLT針對環境特性,拼接上下文多幀數據,再通過特徵變換進行降維處理,因爲與說話人無關,所以估計的是全局矩陣。fMLLR針對說話人特性,基於每個說話人或每個utterance進行變換矩陣估計。在DNN-HMM模型中,由於DNN的鑑別特性,GMM下的自適應方法不能直接拿來用,DNN下的自適應方法主要有線性變換、正則項法、子空間法(i-vector)。
自適應的作用是,補償實際數據與已經訓練的三音素模型中聲學條件不匹配的問題,包括說話人特性(說話方式、口音等)及環境特性(如錄音設備、房間混響等)。在GMM-HMM模型中,自適應方法有特徵空間變換和模型空間變換。Kaldi中主要採用的是特徵空間變換方法: LDA、MLLT和fMLLR,其本質都是在訓練過程中估計變換矩陣,然後構造變換後的特徵,再迭代訓練新的聲學模型參數。LDA+MLLT針對環境特性,拼接上下文多幀數據,再通過特徵變換進行降維處理,因爲與說話人無關,所以估計的是全局矩陣。fMLLR針對說話人特性,基於每個說話人或每個utterance進行變換矩陣估計。在DNN-HMM模型中,由於DNN的鑑別特性,GMM下的自適應方法不能直接拿來用,DNN下的自適應方法主要有線性變換、正則項法、子空間法(i-vector)。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章