端到端語音識別(四) raw wavform

現在的端到端語音識別的第一個“端”大部分還是使用人爲設定的語音特徵,比如FBANK/PLP,更高級的端到端語音識別輸入是語音波形,輸出是文字。
近幾年也有一些工作是使用神經網絡(比如CNN)來學習傳統的特徵提取步驟,取得了跟使用傳統的語音特徵相當的結果,當前這部分工作絕大多數還是基於傳統的HMM框架來做,還沒有跟CTC或者encoder-decoder相結合。

CNN

Google[1]分析了CNN跟mel-scale filterbank之間的關係,convolution layer相當於學習一組FIR濾波器,學習到的這組filter對應的中心頻率曲線跟mel-fb類似。

CLDNN

Google[2]使用一層CNN來抽取特徵,聲學模型使用CLDNN,在2000h數據集上取得了跟log-mel filterbank特徵相當的效果。
這裏寫圖片描述
第一層稱爲time-convolutional layer,用來學習濾波器參數。
- 每次輸入M個採樣點,幀移10ms
- 使用P個filter,對應於最後的P個頻率輸出
- max pooling,移除語音的short term phase信息

後面使用CLDNN的網絡結構,這裏面的convolutional layer稱爲fConv layer,相當於與頻域信號做卷積,減少spectral variations。

CNN+TDNN

[3]提出了CNN+TDNN的網絡結構,相比於[2]來講,抽取特徵使用NIN的非線性變換來替換pooling,獲得了更快的收斂速度。

Reference

[1].SPEECH ACOUSTIC MODELING FROM RAW MULTICHANNEL WAVEFORMS
[2].Learning the Speech Front-end With RawWaveform CLDNNs
[3].Acoustic modelling from the signal domain using CNNs

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章