現在的端到端語音識別的第一個“端”大部分還是使用人爲設定的語音特徵,比如FBANK/PLP,更高級的端到端語音識別輸入是語音波形,輸出是文字。
近幾年也有一些工作是使用神經網絡(比如CNN)來學習傳統的特徵提取步驟,取得了跟使用傳統的語音特徵相當的結果,當前這部分工作絕大多數還是基於傳統的HMM框架來做,還沒有跟CTC或者encoder-decoder相結合。
CNN
Google[1]分析了CNN跟mel-scale filterbank之間的關係,convolution layer相當於學習一組FIR濾波器,學習到的這組filter對應的中心頻率曲線跟mel-fb類似。
CLDNN
Google[2]使用一層CNN來抽取特徵,聲學模型使用CLDNN,在2000h數據集上取得了跟log-mel filterbank特徵相當的效果。
第一層稱爲time-convolutional layer,用來學習濾波器參數。
- 每次輸入M個採樣點,幀移10ms
- 使用P個filter,對應於最後的P個頻率輸出
- max pooling,移除語音的short term phase信息
後面使用CLDNN的網絡結構,這裏面的convolutional layer稱爲fConv layer,相當於與頻域信號做卷積,減少spectral variations。
CNN+TDNN
[3]提出了CNN+TDNN的網絡結構,相比於[2]來講,抽取特徵使用NIN的非線性變換來替換pooling,獲得了更快的收斂速度。
Reference
[1].SPEECH ACOUSTIC MODELING FROM RAW MULTICHANNEL WAVEFORMS
[2].Learning the Speech Front-end With RawWaveform CLDNNs
[3].Acoustic modelling from the signal domain using CNNs